Lingshu 32B
霊枢は医療分野で卓越した性能を発揮する多モーダル大規模言語モデルで、医学画像とテキスト情報を効果的に処理でき、医療質問応答とレポート生成タスクでトップレベルの性能を示します。
ダウンロード数 243
リリース時間 : 6/5/2025
モデル概要
霊枢は汎用的な医療基礎モデルで、多モーダル医学理解と推論の統一に特化し、X線、CTスキャン、MRIなど12種類以上の医学画像モーダリティをサポートします。
モデル特徴
多モーダル医療理解
X線、CTスキャン、MRI、顕微鏡検査など12種類以上の医学画像モーダリティをサポートします。
トップレベルの性能
医療ビジョン質問応答とレポート生成タスクで先進水準に達し、GPT - 4.1やClaude Sonnet 4より優れています。
包括的な評価サポート
MedEvalKit評価ツールキットを提供し、主要な多モーダルとテキスト医療タスクの迅速な評価をサポートします。
モデル能力
医学画像理解
医療テキスト質問応答
医療レポート生成
多モーダル医学推論
使用事例
医療診断支援
医学画像分析
X線、CTスキャンなどの医学画像を分析し、診断提案を提供します。
MMMU - Medなどのデータセットで優れた性能を示します。
医療レポート生成
医学画像に基づいて自動的に診断レポートを生成します。
MIMIC - CXRなどのデータセットでROUGE - Lスコア30.8を達成します。
医療質問応答システム
臨床問題解答
医師や患者の医療関連の質問に回答します。
MedQAなどのデータセットで正解率74.7%を達成します。
🚀 Lingshu - 医療分野向けの最先端マルチモーダル大規模言語モデル
Lingshuは、医療分野の画像とテキストを統合した理解と推論を可能にするマルチモーダル大規模言語モデルです。医療分野の質問応答やレポート生成タスクで高い性能を発揮します。
ウェブサイト 🤖 7Bモデル 🤖 32Bモデル MedEvalKit 技術レポート
大きなニュース: Lingshuがリリースされ、医療VQAタスクとレポート生成で最先端の性能を発揮します。
このリポジトリには、論文Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoningのモデルが含まれています。また、包括的な医療評価ツールキットをMedEvalKitで公開しており、主要なマルチモーダルおよびテキスト医療タスクの高速評価をサポートしています。
✨ 主な機能
- Lingshuモデルは、7Bと32Bのモデルサイズで、ほとんどの医療マルチモーダル/テキストQAおよびレポート生成タスクで最先端の性能を達成しています。
- Lingshu-32Bは、ほとんどのマルチモーダルQAおよびレポート生成タスクで、GPT-4.1やClaude Sonnet 4を上回っています。
- Lingshuは、X線、CTスキャン、MRI、顕微鏡、超音波、病理組織学、皮膚鏡、眼底、OCT、デジタル写真、内視鏡、PETなど、12種類以上の医療画像モダリティをサポートしています。
📦 リリース情報
- 技術レポート: Arxiv: Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
- モデルウェイト:
⚠️ 重要提示
ウェイト、コード、デモはオープンに公開されていますが、他の事前学習言語モデルと同様に、私たちが最善を尽くしてレッドチーミングやセキュリティ微調整を行っているにもかかわらず、モデルには不正確、誤解を招く、または潜在的に有害な生成を含む潜在的なリスクがあります。 開発者や関係者は、デプロイ前に独自のレッドチーミングを行い、関連するセキュリティ対策を講じる必要があり、地域の規制や法令を遵守しなければなりません。 公開されたウェイト、コード、またはデモの使用に起因するいかなる請求、損害、またはその他の責任について、著者は一切の責任を負いません。
📚 評価
医療マルチモーダルVQA
モデル | MMMU - Med | VQA - RAD | SLAKE | PathVQA | PMC - VQA | OmniMedVQA | MedXpertQA | 平均 |
---|---|---|---|---|---|---|---|---|
プロプライエタリモデル | ||||||||
GPT - 4.1 | 75.2 | 65.0 | 72.2 | 55.5 | 55.2 | 75.5 | 45.2 | 63.4 |
Claude Sonnet 4 | 74.6 | 67.6 | 70.6 | 54.2 | 54.4 | 65.5 | 43.3 | 61.5 |
Gemini - 2.5 - Flash | 76.9 | 68.5 | 75.8 | 55.4 | 55.4 | 71.0 | 52.8 | 65.1 |
オープンソースモデル (<10B) | ||||||||
BiomedGPT | 24.9 | 16.6 | 13.6 | 11.3 | 27.6 | 27.9 | - | - |
Med - R1 - 2B | 34.8 | 39.0 | 54.5 | 15.3 | 47.4 | - | 21.1 | - |
MedVLM - R1 - 2B | 35.2 | 48.6 | 56.0 | 32.5 | 47.6 | 77.7 | 20.4 | 45.4 |
MedGemma - 4B - IT | 43.7 | 72.5 | 76.4 | 48.8 | 49.9 | 69.8 | 22.3 | 54.8 |
LLaVA - Med - 7B | 29.3 | 53.7 | 48.0 | 38.8 | 30.5 | 44.3 | 20.3 | 37.8 |
HuatuoGPT - V - 7B | 47.3 | 67.0 | 67.8 | 48.0 | 53.3 | 74.2 | 21.6 | 54.2 |
BioMediX2 - 8B | 39.8 | 49.2 | 57.7 | 37.0 | 43.5 | 63.3 | 21.8 | 44.6 |
Qwen2.5VL - 7B | 50.6 | 64.5 | 67.2 | 44.1 | 51.9 | 63.6 | 22.3 | 52.0 |
InternVL2.5 - 8B | 53.5 | 59.4 | 69.0 | 42.1 | 51.3 | 81.3 | 21.7 | 54.0 |
InternVL3 - 8B | 59.2 | 65.4 | 72.8 | 48.6 | 53.8 | 79.1 | 22.4 | 57.3 |
Lingshu - 7B | 54.0 | 67.9 | 83.1 | 61.9 | 56.3 | 82.9 | 26.7 | 61.8 |
オープンソースモデル (>10B) | ||||||||
HealthGPT - 14B | 49.6 | 65.0 | 66.1 | 56.7 | 56.4 | 75.2 | 24.7 | 56.2 |
HuatuoGPT - V - 34B | 51.8 | 61.4 | 69.5 | 44.4 | 56.6 | 74.0 | 22.1 | 54.3 |
MedDr - 40B | 49.3 | 65.2 | 66.4 | 53.5 | 13.9 | 64.3 | - | - |
InternVL3 - 14B | 63.1 | 66.3 | 72.8 | 48.0 | 54.1 | 78.9 | 23.1 | 58.0 |
Qwen2.5V - 32B | 59.6 | 71.8 | 71.2 | 41.9 | 54.5 | 68.2 | 25.2 | 56.1 |
InternVL2.5 - 38B | 61.6 | 61.4 | 70.3 | 46.9 | 57.2 | 79.9 | 24.4 | 57.4 |
InternVL3 - 38B | 65.2 | 65.4 | 72.7 | 51.0 | 56.6 | 79.8 | 25.2 | 59.4 |
Lingshu - 32B | 62.3 | 76.5 | 89.2 | 65.9 | 57.9 | 83.4 | 30.9 | 66.6 |
医療テキストQA
モデル | MMLU - Med | PubMedQA | MedMCQA | MedQA | Medbullets | MedXpertQA | SuperGPQA - Med | 平均 |
---|---|---|---|---|---|---|---|---|
プロプライエタリモデル | ||||||||
GPT - 4.1 | 89.6 | 75.6 | 77.7 | 89.1 | 77.0 | 30.9 | 49.9 | 70.0 |
Claude Sonnet 4 | 91.3 | 78.6 | 79.3 | 92.1 | 80.2 | 33.6 | 56.3 | 73.1 |
Gemini - 2.5 - Flash | 84.2 | 73.8 | 73.6 | 91.2 | 77.6 | 35.6 | 53.3 | 69.9 |
オープンソースモデル (<10B) | ||||||||
Med - R1 - 2B | 51.5 | 66.2 | 39.1 | 39.9 | 33.6 | 11.2 | 17.9 | 37.0 |
MedVLM - R1 - 2B | 51.8 | 66.4 | 39.7 | 42.3 | 33.8 | 11.8 | 19.1 | 37.8 |
MedGemma - 4B - IT | 66.7 | 72.2 | 52.2 | 56.2 | 45.6 | 12.8 | 21.6 | 46.8 |
LLaVA - Med - 7B | 50.6 | 26.4 | 39.4 | 42.0 | 34.4 | 9.9 | 16.1 | 31.3 |
HuatuoGPT - V - 7B | 69.3 | 72.8 | 51.2 | 52.9 | 40.9 | 10.1 | 21.9 | 45.6 |
BioMediX2 - 8B | 68.6 | 75.2 | 52.9 | 58.9 | 45.9 | 13.4 | 25.2 | 48.6 |
Qwen2.5VL - 7B | 73.4 | 76.4 | 52.6 | 57.3 | 42.1 | 12.8 | 26.3 | 48.7 |
InternVL2.5 - 8B | 74.2 | 76.4 | 52.4 | 53.7 | 42.4 | 11.6 | 26.1 | 48.1 |
InternVL3 - 8B | 77.5 | 75.4 | 57.7 | 62.1 | 48.5 | 13.1 | 31.2 | 52.2 |
Lingshu - 7B | 74.5 | 76.6 | 55.9 | 63.3 | 56.2 | 16.5 | 26.3 | 52.8 |
オープンソースモデル (>10B) | ||||||||
HealthGPT - 14B | 80.2 | 68.0 | 63.4 | 66.2 | 39.8 | 11.3 | 25.7 | 50.7 |
HuatuoGPT - V - 34B | 74.7 | 72.2 | 54.7 | 58.8 | 42.7 | 11.4 | 26.5 | 48.7 |
MedDr - 40B | 65.2 | 77.4 | 38.4 | 59.2 | 44.3 | 12.0 | 24.0 | 45.8 |
InternVL3 - 14B | 81.7 | 77.2 | 62.0 | 70.1 | 49.5 | 14.1 | 37.9 | 56.1 |
Qwen2.5VL - 32B | 83.2 | 68.4 | 63.0 | 71.6 | 54.2 | 15.6 | 37.6 | 56.2 |
InternVL2.5 - 38B | 84.6 | 74.2 | 65.9 | 74.4 | 55.0 | 14.7 | 39.9 | 58.4 |
InternVL3 - 38B | 83.8 | 73.2 | 64.9 | 73.5 | 54.6 | 16.0 | 42.5 | 58.4 |
Lingshu - 32B | 84.7 | 77.8 | 66.1 | 74.7 | 65.4 | 22.7 | 41.1 | 61.8 |
医療レポート生成
モデル | MIMIC - CXR (ROUGE - L) | MIMIC - CXR (CIDEr) | MIMIC - CXR (RaTE) | MIMIC - CXR (SembScore) | MIMIC - CXR (RadCliQ - v1-1) | CheXpert Plus (ROUGE - L) | CheXpert Plus (CIDEr) | CheXpert Plus (RaTE) | CheXpert Plus (SembScore) | CheXpert Plus (RadCliQ - v1-1) | IU - Xray (ROUGE - L) | IU - Xray (CIDEr) | IU - Xray (RaTE) | IU - Xray (SembScore) | IU - Xray (RadCliQ - v1-1) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
プロプライエタリモデル | |||||||||||||||
GPT - 4.1 | 9.0 | 82.8 | 51.3 | 23.9 | 57.1 | 24.5 | 78.8 | 45.5 | 23.2 | 45.5 | 30.2 | 124.6 | 51.3 | 47.5 | 80.3 |
Claude Sonnet 4 | 20.0 | 56.6 | 45.6 | 19.7 | 53.4 | 22.0 | 59.5 | 43.5 | 18.9 | 43.3 | 25.4 | 88.3 | 55.4 | 41.0 | 72.1 |
Gemini - 2.5 - Flash | 25.4 | 80.7 | 50.3 | 29.7 | 59.4 | 23.6 | 72.2 | 44.3 | 27.4 | 44.0 | 33.5 | 129.3 | 55.6 | 50.9 | 91.6 |
オープンソースモデル (<10B) | |||||||||||||||
Med - R1 - 2B | 19.3 | 35.4 | 40.6 | 14.8 | 42.4 | 18.6 | 37.1 | 38.5 | 17.8 | 37.6 | 16.1 | 38.3 | 41.4 | 12.5 | 43.6 |
MedVLM - R1 - 2B | 20.3 | 40.1 | 41.6 | 14.2 | 48.3 | 20.9 | 43.5 | 38.9 | 15.5 | 40.9 | 22.7 | 61.1 | 46.1 | 22.7 | 54.3 |
MedGemma - 4B - IT | 25.6 | 81.0 | 52.4 | 29.2 | 62.9 | 27.1 | 79.0 | 47.2 | 29.3 | 46.6 | 30.8 | 103.6 | 57.0 | 46.8 | 86.7 |
LLaVA - Med - 7B | 15.0 | 43.4 | 12.8 | 18.3 | 52.9 | 18.4 | 45.5 | 38.8 | 23.5 | 44.0 | 18.8 | 68.2 | 40.9 | 16.0 | 58.1 |
HuatuoGPT - V - 7B | 23.4 | 69.5 | 48.9 | 20.0 | 48.2 | 21.3 | 64.7 | 44.2 | 19.3 | 39.4 | 29.6 | 104.3 | 52.9 | 40.7 | 63.6 |
BioMediX2 - 8B | 20.0 | 52.8 | 44.4 | 17.7 | 53.0 | 18.1 | 47.9 | 40.8 | 21.6 | 43.3 | 19.6 | 58.8 | 40.1 | 11.6 | 53.8 |
Qwen2.5VL - 7B | 24.1 | 63.7 | 47.0 | 18.4 | 55.1 | 22.2 | 62.0 | 41.0 | 17.2 | 43.1 | 26.5 | 78.1 | 48.4 | 36.3 | 66.1 |
InternVL2.5 - 8B | 23.2 | 61.8 | 47.0 | 21.0 | 56.2 | 20.6 | 58.5 | 43.1 | 19.7 | 42.7 | 24.8 | 75.4 | 51.1 | 36.7 | 67.0 |
InternVL3 - 8B | 22.9 | 66.2 | 48.2 | 21.5 | 55.1 | 20.9 | 65.4 | 44.3 | 25.2 | 43.7 | 22.9 | 76.2 | 51.2 | 31.3 | 59.9 |
Lingshu - 7B | 30.8 | 109.4 | 52.1 | 30.0 | 69.2 | 26.5 | 79.0 | 45.4 | 27.8 | 49.3 | 33.9 | 127.8 | 60.0 | 49.5 | 92.4 |
オープンソースモデル (>10B) | |||||||||||||||
HealthGPT - 14B | 22.4 | 58.1 | 43.5 | 20.2 | 50.7 | 21.3 | 57.8 | 42.4 | 20.1 | 42.2 | 24.6 | 71.1 | 47.6 | 34.2 | 62.1 |
HuatuoGPT - V - 34B | 21.7 | 55.6 | 42.7 | 19.8 | 49.2 | 20.6 | 54.9 | 41.5 | 19.6 | 41.0 | 23.9 | 68.7 | 46.8 | 33.4 | 60.8 |
MedDr - 40B | 18.9 | 46.2 | 38.6 | 16.7 | 44.5 | 17.8 | 43.5 | 37.2 | 16.2 | 36.8 | 20.1 | 53.3 | 42.3 | 28.1 | 55.3 |
InternVL3 - 14B | 24.3 | 63.2 | 46.1 | 21.8 | 53.6 | 22.5 | 62.7 | 44.0 | 21.7 | 43.8 | 26.7 | 77.6 | 49.4 | 37.8 | 64.9 |
Qwen2.5V - 32B | 25.1 | 65.7 | 47.5 | 22.3 | 54.9 | 23.0 | 64.3 | 44.6 | 22.2 | 44.4 | 27.4 | 79.3 | 50.1 | 38.5 | 65.6 |
InternVL2.5 - 38B | 25.7 | 67.1 | 48.2 | 22.8 | 55.5 | 23.4 | 65.9 | 45.2 | 22.7 | 45.0 | 28.0 | 81.0 | 50.7 | 39.1 | 66.2 |
InternVL3 - 38B | 26.3 | 68.5 | 49.0 | 23.3 | 56.1 | 24.0 | 67.5 | 45.8 | 23.2 | 45.6 | 28.6 | 82.7 | 51.3 | 39.7 | 66.8 |
Lingshu - 32B | 32.1 | 113.6 | 54.2 | 31.5 | 71.8 | 28.3 | 82.4 | 48.6 | 30.5 | 51.7 | 35.4 | 132.1 | 62.3 | 51.9 | 94.7 |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
Clip Vit Large Patch14 336
Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。
テキスト生成画像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルモデルであり、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、視覚質問応答タスクに優れており、言語-画像共同トレーニングによりマルチモーダル理解と生成能力を実現
テキスト生成画像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします
テキスト生成画像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1はテキストから生成された画像に対するスコアリング関数で、人間の選好予測、モデル性能評価、画像ランキングなどのタスクに使用できます。
テキスト生成画像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを位置特定できます。
テキスト生成画像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2はMetaがリリースした多言語マルチモーダル大規模言語モデルで、画像テキストからテキストへの変換タスクをサポートし、強力なクロスモーダル理解能力を備えています。
テキスト生成画像
Transformers 複数言語対応

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
テキスト生成画像
Transformers

O
google
764.95k
129
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98