🚀 LLaVA-Med v1.5
Large Language and Vision Assistant for bioMedicine (LLaVA-Med)は、カリキュラム学習法を用いてLLaVAを生物医学分野に適応させるために訓練された大規模言語とビジョンのモデルです。このオープンソース版は研究用途のみを目的としてリリースされており、生物医学の自由記述型質問応答タスクの性能向上を主張する対応する論文の再現性を促進することを目的としています。これには、PathVQAやVQA-RADなどの一般的な視覚的質問応答(VQA)ベンチマークデータセットが含まれます。
🚀 クイックスタート
LLaVA-Medは、Chunyuan Li、Cliff Wong、Sheng Zhang、Naoto Usuyama、Haotian Liu、Jianwei Yang、Tristan Naumann、Hoifung Poon、Jianfeng GaoによるLLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Dayで提案されました。
モデルの日付:
LLaVA-Med-v1.5-Mistral-7Bは2024年4月に訓練されました。
詳細情報の論文またはリソース:
https://aka.ms/llava-med
モデルに関する質問やコメントの送信先:
https://github.com/microsoft/LLaVA-Med/issues
✨ 主な機能
このモデルは、生物医学の視覚言語処理のための大規模並列画像テキストデータセットであるPMC-15Mデータセットを基に構築されています。このデータセットには、PubMed Centralの生物医学研究論文から抽出された1500万の図とキャプションのペアが含まれており、顕微鏡画像、放射線画像、組織学画像など、多様な生物医学画像タイプを網羅しています。
📦 インストール
このセクションでは、インストールに関する具体的な手順やコマンドが提供されていません。
💻 使用例
このセクションでは、使用例に関する具体的なコードが提供されていません。
📚 ドキュメント
利用目的
データ、コード、およびモデルチェックポイントは、(I) 視覚言語処理に関する将来の研究と、(II) 参照論文に報告されている実験結果の再現性のみを目的として使用されることを意図しています。これらは臨床診療や臨床的な意思決定目的での使用を意図していません。
主な利用目的
主な利用目的は、AI研究者がこの研究を再現し、その上に構築することを支援することです。LLaVA-Medとその関連モデルは、様々な生物医学的視覚言語処理(VLP)および視覚的質問応答(VQA)の研究課題を探索するのに役立つはずです。
範囲外の利用
このモデルのいかなる実際の展開事例(商用またはその他)も範囲外です。我々は広範な公開研究ベンチマークを使用してモデルを評価しましたが、モデルと評価は研究用途のみを目的としており、実際の展開事例を意図していません。詳細については、関連する論文を参照してください。
データ
このモデルは、生物医学の視覚言語処理のための大規模並列画像テキストデータセットであるPMC-15Mデータセットを基に構築されています。このデータセットには、PubMed Centralの生物医学研究論文から抽出された1500万の図とキャプションのペアが含まれており、顕微鏡画像、放射線画像、組織学画像など、多様な生物医学画像タイプを網羅しています。
使い方
LLaVA-MedリポジトリのServingおよびEvaluationセクションを参照してください。
制限事項
このモデルは英語コーパスを使用して開発されたため、英語のみと見なされる場合があります。このモデルは、LLaVA-Med論文に記載されている限られた生物医学ベンチマークタスクで評価されています。したがって、臨床現場での使用には適していません。いくつかの条件下では、モデルは不正確な予測を行い、制限事項を示すことがあり、追加の緩和策が必要になる場合があります。特に、このモデルは、それが派生したモデルであるLLaVAの多くの制限事項を引き継いでいる可能性があります。
さらに、このモデルは一部、PMC-15Mデータセットを使用して開発されました。このデータセットを構成する図とキャプションのペアには、現在の学術出版の実践を反映したバイアスが含まれている可能性があります。たとえば、対応する論文は肯定的な結果が多く含まれている可能性があり、極端な事例の例が含まれている可能性があり、その他の生物医学データ源を代表していない分布を反映している可能性があります。
🔧 技術詳細
このセクションでは、具体的な技術的な説明が提供されていません。
📄 ライセンス
mistralai/Mistral-7B-Instruct-v0.2のライセンスに従います。
BibTeXエントリと引用情報
@article{li2023llavamed,
title={Llava-med: Training a large language-and-vision assistant for biomedicine in one day},
author={Li, Chunyuan and Wong, Cliff and Zhang, Sheng and Usuyama, Naoto and Liu, Haotian and Yang, Jianwei and Naumann, Tristan and Poon, Hoifung and Gao, Jianfeng},
journal={arXiv preprint arXiv:2306.00890},
year={2023}
}