Lingshu 7B
霊枢は医療分野の最先端の多モーダル大規模言語モデルで、医療ビジュアル質問応答とレポート生成タスクで卓越した性能を発揮します。
ダウンロード数 355
リリース時間 : 6/5/2025
モデル概要
霊枢モデルは汎用基礎モデルで、医療分野の多モーダル理解と推論に特化し、12種類以上の医学画像モードをサポートします。
モデル特徴
多モーダル医療理解
12種類以上の医学画像モードをサポートし、X線、CTスキャン、MRIなどが含まれます。
卓越した性能
ほとんどの医療多モーダル/テキスト質問応答とレポート生成タスクで最先端レベルに達します。
多タスクサポート
ビジュアル質問応答、テキスト質問応答、レポート生成などの複数の医療タスクを同時にサポートします。
モデル能力
医療画像解析
医療テキスト理解
医療レポート生成
多モーダル推論
医療質問応答
使用事例
医療診断支援
画像レポート生成
医学画像に基づいて自動的に診断レポートを生成します。
MIMIC - CXRデータセットでROUGE - Lが30.8、CIDErが109.4に達します。
医療ビジュアル質問応答
医学画像に基づく臨床問題に回答します。
VQA - RADデータセットで正解率が67.9%に達します。
医学教育
医学知識質問応答
様々な医学知識の質問に回答します。
MMLU - Medデータセットで正解率が74.5%に達します。
🚀 Lingshu - 医療分野向けの最先端マルチモーダル大規模言語モデル
Lingshuは、医療分野における画像とテキストを組み合わせたマルチモーダルな理解と推論を行う最先端の大規模言語モデルです。医療VQAタスクやレポート生成において高い性能を発揮します。
ウェブサイト 🤖 7Bモデル 🤖 32Bモデル MedEvalKit 技術レポート
大きなニュース: Lingshuがリリースされ、医療VQAタスクとレポート生成において最先端の性能を発揮します。
このリポジトリには、論文Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoningのモデルが含まれています。また、包括的な医療評価ツールキットをMedEvalKitで公開しており、主要なマルチモーダルおよびテキスト医療タスクの高速評価をサポートしています。
✨ 主な機能
- Lingshuモデルは、7Bと32Bのモデルサイズにおいて、ほとんどの医療マルチモーダル/テキストQAおよびレポート生成タスクで最先端の性能を達成しています。
- Lingshu-32Bは、ほとんどのマルチモーダルQAおよびレポート生成タスクでGPT-4.1やClaude Sonnet 4を上回っています。
- Lingshuは、X線、CTスキャン、MRI、顕微鏡検査、超音波検査、病理組織検査、皮膚鏡検査、眼底検査、OCT、デジタル写真、内視鏡検査、PETなど、12種類以上の医療画像モダリティをサポートしています。
📦 リリース情報
- 技術レポート: Arxiv: Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
- モデルの重み:
⚠️ 重要提示
重み、コード、デモはオープンに公開されていますが、他の事前学習言語モデルと同様に、私たちがレッドチーミングやセキュリティ微調整を行ったとしても、モデルには不正確、誤解を招く、または潜在的に有害な生成を含む潜在的なリスクがあります。開発者や関係者は、デプロイ前に独自のレッドチーミングを行い、関連するセキュリティ対策を講じる必要があり、また、現地の規制や法令を遵守しなければなりません。公開された重み、コード、またはデモの使用に起因するいかなる請求、損害、またはその他の責任について、著者は一切の責任を負いません。
📚 詳細ドキュメント
医療マルチモーダルVQA
モデル | MMMU-Med | VQA-RAD | SLAKE | PathVQA | PMC-VQA | OmniMedVQA | MedXpertQA | 平均 |
---|---|---|---|---|---|---|---|---|
独占モデル | ||||||||
GPT-4.1 | 75.2 | 65.0 | 72.2 | 55.5 | 55.2 | 75.5 | 45.2 | 63.4 |
Claude Sonnet 4 | 74.6 | 67.6 | 70.6 | 54.2 | 54.4 | 65.5 | 43.3 | 61.5 |
Gemini-2.5-Flash | 76.9 | 68.5 | 75.8 | 55.4 | 55.4 | 71.0 | 52.8 | 65.1 |
オープンソースモデル(<10B) | ||||||||
BiomedGPT | 24.9 | 16.6 | 13.6 | 11.3 | 27.6 | 27.9 | - | - |
Med-R1-2B | 34.8 | 39.0 | 54.5 | 15.3 | 47.4 | - | 21.1 | - |
MedVLM-R1-2B | 35.2 | 48.6 | 56.0 | 32.5 | 47.6 | 77.7 | 20.4 | 45.4 |
MedGemma-4B-IT | 43.7 | 72.5 | 76.4 | 48.8 | 49.9 | 69.8 | 22.3 | 54.8 |
LLaVA-Med-7B | 29.3 | 53.7 | 48.0 | 38.8 | 30.5 | 44.3 | 20.3 | 37.8 |
HuatuoGPT-V-7B | 47.3 | 67.0 | 67.8 | 48.0 | 53.3 | 74.2 | 21.6 | 54.2 |
BioMediX2-8B | 39.8 | 49.2 | 57.7 | 37.0 | 43.5 | 63.3 | 21.8 | 44.6 |
Qwen2.5VL-7B | 50.6 | 64.5 | 67.2 | 44.1 | 51.9 | 63.6 | 22.3 | 52.0 |
InternVL2.5-8B | 53.5 | 59.4 | 69.0 | 42.1 | 51.3 | 81.3 | 21.7 | 54.0 |
InternVL3-8B | 59.2 | 65.4 | 72.8 | 48.6 | 53.8 | 79.1 | 22.4 | 57.3 |
Lingshu-7B | 54.0 | 67.9 | 83.1 | 61.9 | 56.3 | 82.9 | 26.7 | 61.8 |
オープンソースモデル(>10B) | ||||||||
HealthGPT-14B | 49.6 | 65.0 | 66.1 | 56.7 | 56.4 | 75.2 | 24.7 | 56.2 |
HuatuoGPT-V-34B | 51.8 | 61.4 | 69.5 | 44.4 | 56.6 | 74.0 | 22.1 | 54.3 |
MedDr-40B | 49.3 | 65.2 | 66.4 | 53.5 | 13.9 | 64.3 | - | - |
InternVL3-14B | 63.1 | 66.3 | 72.8 | 48.0 | 54.1 | 78.9 | 23.1 | 58.0 |
Qwen2.5V-32B | 59.6 | 71.8 | 71.2 | 41.9 | 54.5 | 68.2 | 25.2 | 56.1 |
InternVL2.5-38B | 84.6 | 74.2 | 65.9 | 74.4 | 55.0 | 79.9 | 24.4 | 58.4 |
InternVL3-38B | 83.8 | 73.2 | 64.9 | 73.5 | 54.6 | 16.0 | 42.5 | 58.4 |
Lingshu-32B | 62.3 | 76.5 | 89.2 | 65.9 | 57.9 | 83.4 | 30.9 | 66.6 |
医療テキストQA
モデル | MMLU-Med | PubMedQA | MedMCQA | MedQA | Medbullets | MedXpertQA | SuperGPQA-Med | 平均 |
---|---|---|---|---|---|---|---|---|
独占モデル | ||||||||
GPT-4.1 | 89.6 | 75.6 | 77.7 | 89.1 | 77.0 | 30.9 | 49.9 | 70.0 |
Claude Sonnet 4 | 91.3 | 78.6 | 79.3 | 92.1 | 80.2 | 33.6 | 56.3 | 73.1 |
Gemini-2.5-Flash | 84.2 | 73.8 | 73.6 | 91.2 | 77.6 | 35.6 | 53.3 | 69.9 |
オープンソースモデル(<10B) | ||||||||
Med-R1-2B | 51.5 | 66.2 | 39.1 | 39.9 | 33.6 | 11.2 | 17.9 | 37.0 |
MedVLM-R1-2B | 51.8 | 66.4 | 39.7 | 42.3 | 33.8 | 11.8 | 19.1 | 37.8 |
MedGemma-4B-IT | 66.7 | 72.2 | 52.2 | 56.2 | 45.6 | 12.8 | 21.6 | 46.8 |
LLaVA-Med-7B | 50.6 | 26.4 | 39.4 | 42.0 | 34.4 | 9.9 | 16.1 | 31.3 |
HuatuoGPT-V-7B | 69.3 | 72.8 | 51.2 | 52.9 | 40.9 | 10.1 | 21.9 | 45.6 |
BioMediX2-8B | 68.6 | 75.2 | 52.9 | 58.9 | 45.9 | 13.4 | 25.2 | 48.6 |
Qwen2.5VL-7B | 73.4 | 76.4 | 52.6 | 57.3 | 42.1 | 12.8 | 26.3 | 48.7 |
InternVL2.5-8B | 74.2 | 76.4 | 52.4 | 53.7 | 42.4 | 11.6 | 26.1 | 48.1 |
InternVL3-8B | 77.5 | 75.4 | 57.7 | 62.1 | 48.5 | 13.1 | 31.2 | 52.2 |
Lingshu-7B | 74.5 | 76.6 | 55.9 | 63.3 | 56.2 | 16.5 | 26.3 | 52.8 |
オープンソースモデル(>10B) | ||||||||
HealthGPT-14B | 80.2 | 68.0 | 63.4 | 66.2 | 39.8 | 11.3 | 25.7 | 50.7 |
HuatuoGPT-V-34B | 74.7 | 72.2 | 54.7 | 58.8 | 42.7 | 11.4 | 26.5 | 48.7 |
MedDr-40B | 65.2 | 77.4 | 38.4 | 59.2 | 44.3 | 12.0 | 24.0 | 45.8 |
InternVL3-14B | 81.7 | 77.2 | 62.0 | 70.1 | 49.5 | 14.1 | 37.9 | 56.1 |
Qwen2.5VL-32B | 83.2 | 68.4 | 63.0 | 71.6 | 54.2 | 15.6 | 37.6 | 56.2 |
InternVL2.5-38B | 84.6 | 74.2 | 65.9 | 74.4 | 55.0 | 14.7 | 39.9 | 58.4 |
InternVL3-38B | 83.8 | 73.2 | 64.9 | 73.5 | 54.6 | 16.0 | 42.5 | 58.4 |
Lingshu-32B | 84.7 | 77.8 | 66.1 | 74.7 | 65.4 | 22.7 | 41.1 | 61.8 |
医療レポート生成
モデル | MIMIC-CXR | CheXpert Plus | IU-Xray | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ROUGE-L | CIDEr | RaTE | SembScore | RadCliQ-v1-1 | ROUGE-L | CIDEr | RaTE | SembScore | RadCliQ-v1-1 | ROUGE-L | CIDEr | RaTE | SembScore | RadCliQ-v1-1 | |
独占モデル | |||||||||||||||
GPT-4.1 | 9.0 | 82.8 | 51.3 | 23.9 | 57.1 | 24.5 | 78.8 | 45.5 | 23.2 | 45.5 | 30.2 | 124.6 | 51.3 | 47.5 | 80.3 |
Claude Sonnet 4 | 20.0 | 56.6 | 45.6 | 19.7 | 53.4 | 22.0 | 59.5 | 43.5 | 18.9 | 43.3 | 25.4 | 88.3 | 55.4 | 41.0 | 72.1 |
Gemini-2.5-Flash | 25.4 | 80.7 | 50.3 | 29.7 | 59.4 | 23.6 | 72.2 | 44.3 | 27.4 | 44.0 | 33.5 | 129.3 | 55.6 | 50.9 | 91.6 |
オープンソースモデル(<10B) | |||||||||||||||
Med-R1-2B | 19.3 | 35.4 | 40.6 | 14.8 | 42.4 | 18.6 | 37.1 | 38.5 | 17.8 | 37.6 | 16.1 | 38.3 | 41.4 | 12.5 | 43.6 |
MedVLM-R1-2B | 20.3 | 40.1 | 41.6 | 14.2 | 48.3 | 20.9 | 43.5 | 38.9 | 15.5 | 40.9 | 22.7 | 61.1 | 46.1 | 22.7 | 54.3 |
MedGemma-4B-IT | 25.6 | 81.0 | 52.4 | 29.2 | 62.9 | 27.1 | 79.0 | 47.2 | 29.3 | 46.6 | 30.8 | 103.6 | 57.0 | 46.8 | 86.7 |
LLaVA-Med-7B | 15.0 | 43.4 | 12.8 | 18.3 | 52.9 | 18.4 | 45.5 | 38.8 | 23.5 | 44.0 | 18.8 | 68.2 | 40.9 | 16.0 | 58.1 |
HuatuoGPT-V-7B | 23.4 | 69.5 | 48.9 | 20.0 | 48.2 | 21.3 | 64.7 | 44.2 | 19.3 | 39.4 | 29.6 | 104.3 | 52.9 | 40.7 | 63.6 |
BioMediX2-8B | 20.0 | 52.8 | 44.4 | 17.7 | 53.0 | 18.1 | 47.9 | 40.8 | 21.6 | 43.3 | 19.6 | 58.8 | 40.1 | 11.6 | 53.8 |
Qwen2.5VL-7B | 24.1 | 63.7 | 47.0 | 18.4 | 55.1 | 22.2 | 62.0 | 41.0 | 17.2 | 43.1 | 26.5 | 78.1 | 48.4 | 36.3 | 66.1 |
InternVL2.5-8B | 23.2 | 61.8 | 47.0 | 21.0 | 56.2 | 20.6 | 58.5 | 43.1 | 19.7 | 42.7 | 24.8 | 75.4 | 51.1 | 36.7 | 67.0 |
InternVL3-8B | 22.9 | 66.2 | 48.2 | 21.5 | 55.1 | 20.9 | 65.4 | 44.3 | 25.2 | 43.7 | 22.9 | 76.2 | 51.2 | 31.3 | 59.9 |
Lingshu-7B | 30.8 | 109.4 | 52.1 | 30.0 | 69.2 | 26.5 | 79.0 | 45.4 | 28.7 | 46.8 | 32.6 | 115.1 | 52.8 | 35.3 | 72.7 |
オープンソースモデル(>10B) | |||||||||||||||
HealthGPT-14B | 27.4 | 77.2 | 49.7 | 24.7 | 57.4 | 24.7 | 68.9 | 43.8 | 25.2 | 43.0 | 28.7 | 91.9 | 50.9 | 32.4 | 64.8 |
HuatuoGPT-V-34B | 25.3 | 70.1 | 47.8 | 22.7 | 55.0 | 22.4 | 63.7 | 42.4 | 22.2 | 41.7 | 27.6 | 87.4 | 50.2 | 30.6 | 62.6 |
MedDr-40B | 24.2 | 68.5 | 46.9 | 21.7 | 53.8 | 21.3 | 61.4 | 41.5 | 20.9 | 40.6 | 26.5 | 83.9 | 49.3 | 29.7 | 60.7 |
InternVL3-14B | 28.6 | 80.7 | 50.9 | 25.9 | 58.6 | 25.9 | 72.2 | 44.9 | 26.4 | 44.2 | 30.1 | 95.7 | 52.1 | 33.6 | 66.0 |
Qwen2.5VL-32B | 26.8 | 73.5 | 48.6 | 23.7 | 56.2 | 23.7 | 66.3 | 43.1 | 23.9 | 42.5 | 29.0 | 90.2 | 51.2 | 31.7 | 64.0 |
InternVL2.5-38B | 29.1 | 82.0 | 51.2 | 26.2 | 59.0 | 26.2 | 73.5 | 45.2 | 26.7 | 44.5 | 30.6 | 97.0 | 52.4 | 33.9 | 66.3 |
InternVL3-38B | 29.4 | 82.7 | 51.4 | 26.4 | 59.3 | 26.4 | 73.9 | 45.4 | 26.9 | 44.7 | 30.8 | 97.6 | 52.6 | 34.1 | 66.5 |
Lingshu-32B | 32.6 | 112.7 | 53.0 | 31.2 | 71.4 | 27.8 | 80.3 | 46.3 | 29.6 | 47.9 | 34.2 | 118.3 | 53.7 | 36.4 | 74.6 |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
Clip Vit Large Patch14 336
Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。
テキスト生成画像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルモデルであり、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、視覚質問応答タスクに優れており、言語-画像共同トレーニングによりマルチモーダル理解と生成能力を実現
テキスト生成画像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします
テキスト生成画像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1はテキストから生成された画像に対するスコアリング関数で、人間の選好予測、モデル性能評価、画像ランキングなどのタスクに使用できます。
テキスト生成画像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを位置特定できます。
テキスト生成画像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2はMetaがリリースした多言語マルチモーダル大規模言語モデルで、画像テキストからテキストへの変換タスクをサポートし、強力なクロスモーダル理解能力を備えています。
テキスト生成画像
Transformers 複数言語対応

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
テキスト生成画像
Transformers

O
google
764.95k
129
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98