Model Overview
Model Features
Model Capabilities
Use Cases
license: other license_name: health-ai-developer-foundations license_link: https://developers.google.com/health-ai-developer-foundations/terms library_name: transformers pipeline_tag: image-text-to-text extra_gated_heading: Hugging FaceでMedGemmaにアクセス extra_gated_prompt: >- Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認し同意する必要があります。 これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。 リクエストは即時処理されます。 extra_gated_button_content: ライセンスを確認 base_model:
- google/medgemma-4b-it tags:
- 医療
- unsloth
- 放射線学
- 臨床推論
- 皮膚科学
- 病理学
- 眼科学
- 胸部X線
Unsloth Dynamic 2.0は優れた精度を達成し、他の主要な量子化手法を凌駕します。
MedGemmaモデルカード
モデルドキュメント: MedGemma
リソース:
- Google Cloud Model Gardenのモデル: MedGemma
- Hugging Faceのモデル: MedGemma
- GitHubリポジトリ(サポートコード、Colabノートブック、ディスカッション、課題): MedGemma
- クイックスタートノートブック: GitHub
- ファインチューニングノートブック: GitHub
- MedGemmaを使用して構築された患者教育デモ
- サポート: 連絡先を参照
- ライセンス: MedGemmaの使用はHealth AI Developer Foundations利用規約に準拠します。
著者: Google
モデル情報
このセクションではMedGemmaモデルとその使用方法について説明します。
説明
MedGemmaは医療テキストと画像理解の性能向上のために訓練されたGemma 3バリアントのコレクションです。開発者はMedGemmaを使用して医療ベースのAIアプリケーション開発を加速できます。MedGemmaは現在、4Bマルチモーダル版と27Bテキスト専用版の2つのバリアントで提供されています。
MedGemma 4Bは、胸部X線、皮膚科画像、眼科画像、組織病理学スライドなど、さまざまな匿名化医療データで特別に事前訓練されたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、組織病理学パッチ、眼科画像、皮膚科画像を含む多様な医療データで訓練されています。
MedGemma 4Bは事前訓練版(接尾辞: -pt
)と指示調整版(接尾辞 -it
)の両方で利用可能です。指示調整版はほとんどのアプリケーションにとってより良い出発点です。事前訓練版は特にMIMICスタイルの胸部X線レポート作成で優れた性能を発揮します。
MedGemma 27Bは医療テキストのみで訓練され、推論時の計算に最適化されています。MedGemma 27Bは指示調整モデルとしてのみ利用可能です。
MedGemmaバリアントは、そのベースライン性能を示すために、一連の臨床関連ベンチマークで評価されています。これらにはオープンベンチマークデータセットとキュレートされたデータセットの両方が含まれます。開発者は性能向上のためにMedGemmaバリアントをファインチューニングできます。詳細については以下の「使用目的」セクションを参照してください。
完全な技術レポートは近日公開予定です。
使用方法
以下は、GPU上でモデルをローカルで迅速に実行するのに役立ついくつかのコードスニペットです。大規模にモデルを使用する場合は、Model Gardenを使用して本番バージョンを作成することをお勧めします。
まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0以降でサポートされています。
$ pip install -U transformers
pipeline
APIでモデルを実行
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# 画像出典: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは放射線科の専門家です。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "このX線写真について説明してください"},
{"type": "image", "image": image},
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
モデルを直接実行
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# 画像出典: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは放射線科の専門家です。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "このX線写真について説明してください"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
例
MedGemmaの使用例については、以下のColabノートブックを参照してください:
-
モデルを簡単に試すには、Hugging Faceの重みを使用してローカルで実行するクイックスタートノートブックを参照してください。27Bモデルを量子化せずに実行するにはColab Enterpriseが必要です。
-
モデルのファインチューニングの例については、ファインチューニングノートブックを参照してください。
モデルアーキテクチャ概要
MedGemmaモデルはGemma 3をベースに構築されており、Gemma 3と同じデコーダー専用トランスフォーマーアーキテクチャを使用しています。アーキテクチャの詳細については、Gemma 3のモデルカードを参照してください。
技術仕様
- モデルタイプ: デコーダー専用トランスフォーマーアーキテクチャ、Gemma 3技術レポートを参照
- モダリティ: 4B: テキスト、視覚; 27B: テキストのみ
- 注意メカニズム: グループ化クエリ注意(GQA)を利用
- コンテキスト長: 少なくとも128Kトークンの長いコンテキストをサポート
- 主要出版物: 近日公開
- モデル作成日: 2025年5月20日
- モデルバージョン: 1.0.0
引用
技術レポートは近日公開予定です。それまでの間、このモデルを使用して公開する場合は、Hugging Faceモデルページを引用してください:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [アクセス日を挿入、例: 2025-05-20]}
}
入力と出力
入力:
- 質問やプロンプトなどのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 128Kトークンの総入力長
出力:
- 入力に対する応答として生成されたテキスト(質問への回答、画像内容の分析、文書の要約など)
- 8192トークンの総出力長
性能と検証
MedGemmaは、多様なマルチモーダル分類、レポート生成、視覚的質問応答、テキストベースのタスクにわたって評価されました。
主要性能指標
画像評価
MedGemma 4Bのマルチモーダル性能は、放射線学、皮膚科学、組織病理学、眼科学、マルチモーダル臨床推論に焦点を当てた一連のベンチマークで評価されました。
MedGemma 4Bは、テストされたすべてのマルチモーダル医療ベンチマークでベースGemma 3 4Bモデルを上回りました。
タスクと指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医療画像分類 | ||
MIMIC CXR - 上位5病状の平均F1 | 88.9 | 81.1 |
CheXpert CXR - 上位5病状の平均F1 | 48.1 | 31.2 |
DermMCQA* - 精度 | 71.8 | 42.6 |
視覚的質問応答 | ||
SlakeVQA(放射線学) - トークン化F1 | 62.3 | 38.6 |
VQA-Rad**(放射線学) - トークン化F1 | 49.9 | 38.6 |
PathMCQA(組織病理学、内部***) - 精度 | 69.8 | 37.1 |
知識と推論 | ||
MedXpertQA(テキスト+マルチモーダル質問) - 精度 | 18.8 | 16.4 |
*参照に基づき、皮膚状態分類の4択問題として提示
**バランス分割、参照を参照
***複数のデータセットに基づき、乳がん、子宮頸がん、前立腺がんの識別、グレーディング、サブタイプの3-9択問題として提示
胸部X線レポート生成
MedGemmaの胸部X線(CXR)レポート生成性能は、RadGraph F1指標を使用してMIMIC-CXRで評価されました。MedGemma事前訓練チェックポイントを、CXRレポート生成用に調整された以前の最高性能モデルPaliGemma 2と比較しています。
指標 | MedGemma 4B(事前訓練) | PaliGemma 2 3B(CXR用調整) | PaliGemma 2 10B(CXR用調整) |
---|---|---|---|
胸部X線レポート生成 | |||
MIMIC CXR - RadGraph F1 | 29.5 | 28.8 | 29.5 |
指示調整版のMedGemma 4BとGemma 3 4Bは、MIMICのグラウンドトゥルースレポートとの報告スタイルの違いにより、低いスコア(それぞれ0.22と0.12)を示します。MIMICレポートでのさらなるファインチューニングにより、ユーザーは改善された性能を達成できます。
テキスト評価
MedGemma 4Bとテキスト専用MedGemma 27Bは、医療知識と推論のための一連のテキスト専用ベンチマークで評価されました。
MedGemmaモデルは、テストされたすべてのテキスト専用医療ベンチマークで、それぞれのベースGemmaモデルを上回りました。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4択) | 89.8(best-of-5) 87.7(0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(テキストのみ) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(テキストのみ) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
すべてのMedGemma 27B結果では、性能向上のためにテストタイムスケーリングが使用されています。
倫理と安全性評価
評価アプローチ
私たちの評価方法には、構造化された評価と関連コンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くのカテゴリに対して評価されました:
- 児童保護: 児童性的虐待や搾取を含む児童保護ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプト評価
- コンテンツ安全性: 嫌がらせ、暴力と流血、ヘイトスピーチを含む安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプト評価
- 表現的害: バイアス、ステレオタイプ化、有害な関連付けや不正確さを含む安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプト評価
- 一般的な医療的害: 情報品質や有害な関連付けや不正確さを含む安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプト評価
開発レベルの評価に加えて、責任あるガバナンス意思決定のための「保証評価」を実施しています。これらはモデル開発チームから独立して実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは過剰適合を防ぎ、意思決定を通知する結果の能力を維持するために保持されます。注目すべき保証評価結果は、リリースレビューの一環として責任と安全評議会に報告されます。
評価結果
安全性テストのすべての領域で、児童保護、コンテンツ安全性、表現的害のカテゴリ全体で安全なレベルの性能が見られました。すべてのテストは、モデルの能力と動作を評価するために安全性フィルターなしで実施されました。テキストからテキスト、画像からテキスト、オーディオからテキストのすべてにおいて、また両方のMedGemmaモデルサイズにおいて、モデルは最小限のポリシー違反しか生成しませんでした。私たちの評価の制限は、主に英語のプロンプトを含んでいたことです。
データカード
データセット概要
訓練
ベースGemmaモデルは、大量のテキストとコードデータのコーパスで事前訓練されています。MedGemma 4Bは、放射線画像、組織病理学画像、眼科画像、皮膚科画像など、さまざまな匿名化医療データで特別に事前訓練されたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科画像、皮膚科画像に関連する医療テキストを含む多様な医療データで訓練されています。
評価
MedGemmaモデルは、5つの異なるタスクと6つの医療画像モダリティにわたる22以上のデータセットを含む、包括的な臨床関連ベンチマークセットで評価されています。これらにはオープンベンチマークデータセットとキュレートされたデータセットの両方が含まれ、CXRレポート生成や放射線学VQAなどのタスクでは専門家の人間評価に重点を置いています。
ソース
MedGemmaは公開データセットと非公開データセットの組み合わせを利用しています。
このモデルは、MIMIC-CXR(胸部X線とレポート)、Slake-VQA(マルチモーダル医療画像と質問)、PAD-UFES-20(皮膚病変画像とデータ)、SCIN(皮膚科画像)、TCGA(がんゲノミクスデータ)、CAMELYON(リンパ節組織病理学画像)、PMC-OA(画像付き生物医学文献)、Mendeley Digital Knee X-Ray(膝X線)などの多様な公開データセットで訓練されました。
さらに、複数の多様な独自データセットがライセンスされ、組み込まれました(次に説明)。
データ所有権とドキュメント
- Mimic-CXR: MIT計算生理学研究所とBeth Israel Deaconess Medical Center(BIDMC)
- Slake-VQA: 香港理工大学(PolyU)、四川大学華西医院、四川省医学科学院/四川省人民医院などの協力者
- PAD-UFES-20: ブラジルのエスピリトサント連邦大学(UFES)、皮膚科および外科支援プログラム(PAD)を通じて
- SCIN: Google HealthとStanford Medicineの協力
- TCGA(The Cancer Genome Atlas): 国立がん研究所と国立ヒトゲノム研究所の共同事業。TCGAのデータはGenomic Data Commons(GDC)を通じて利用可能
- CAMELYON: データはオランダのRadboud大学医療センターとユトレヒト大学医療センターから収集
- PMC-OA(PubMed Central Open Access Subset): 国立医学図書館(NLM)と国立バイオテクノロジー情報センター(NCBI)が管理、NIHの一部
- MedQA: Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang、Peter Szolovitsが率いる研究者チームによって作成
- Mendeley Digital Knee X-Ray: Rani Channamma大学のデータで、Mendeley Dataでホスト
- AfriMed-QA: Intron Health、SisonkeBiotik、BioRAMP、ジョージア工科大学、MasakhaneNLPを含む主要な貢献者と複数の協力組織や研究者によって開発
- VQA-RAD: Jason J. Lau、Soumya Gayen、Asma Ben Abacha、Dina Demner-Fushmanとその所属機関(米国国立医学図書館と国立衛生研究所)の研究チームによって作成
- MedExpQA: HiTZセンター(バスク言語技術・人工知能センター)の研究者によって作成
- MedXpertQA: 清華大学(北京、中国)と上海人工知能研究所(上海、中国)の研究者によって開発
上記の公開データセットに加えて、MedGemmaは研究用にライセンスされた匿名化データセットまたはGoogle内で同意を得た参加者から収集されたデータでも訓練されました。
- 放射線データセット1: 米国ベースの放射線科外来診断センターネットワークからの身体部位別CT研究の匿名化データセット
- 眼科学データセット1: 糖尿病網膜症スクリーニングからの眼底画像の匿名化データセット
- 皮膚科学データセット1: コロンビアからの遠隔皮膚科皮膚状態画像(臨床および皮膚鏡)の匿名化データセット
- 皮膚科学データセット2: オーストラリアからの皮膚がん画像(臨床および皮膚鏡)の匿名化データセット
- 皮膚科学データセット3: 内部データ収集活動からの非疾患皮膚画像の匿名化データセット
- 病理学データセット1: 欧州の学術研究病院とバイオバンクとの協力で作成された組織病理学H&E全スライド画像の匿名化データセット。結腸、前立腺、リンパ節を含む
- 病理学データセット2: 米国の商業バイオバンクによって作成された肺組織病理学H&EおよびIHC全スライド画像の匿名化データセット
- 病理学データセット3: 米国の契約研究機関によって作成された前立腺およびリンパ節H&EおよびIHC組織病理学全スライド画像の匿名化データセット
- 病理学データセット4: 米国の大規模三次教育病院との協力で作成された組織病理学、主にH&E全スライド画像の匿名化データセット。多様な組織と染色タイプを含む、主にH&E
データ引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Physionetで利用可能 Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
匿名化/非識別化:
Googleとパートナーシップは、個々の研究参加者と患者のプライバシーを保護するために厳密に匿名化または非識別化されたデータセットを利用しています
実装情報
モデルの内部に関する詳細。
ソフトウェア
訓練はJAXを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模モデルのより高速で効率的な訓練が可能になります。
使用と制限
使用目的
MedGemmaは、医療テキストと画像を含む医療アプリケーションのより効率的な開発を可能にする出発点として使用されることを意図したオープンマルチモーダル生成AIモデルです。MedGemmaは、生命科学および医療分野の開発者を対象としています。開発者は、特定の使用目的を達成するためにMedGemmaを訓練、適応、有意義に変更する責任があります。MedGemmaモデルは、開発者が独自の独自データを使用して特定のタスクやソリューションのためにファインチューニングできます。
MedGemmaはGemma 3をベースにしており、医療画像とテキストでさらに訓練されています。MedGemmaはあらゆる医療コンテキスト(画像とテキスト)でのさらなる開発を可能にしますが、モデルは胸部X線、病理学、皮膚科学、眼底画像を使用して事前訓練されています。MedGemmaの訓練内のタスクの例には、X線写真などの医療画像に関する視覚的質問応答や、テキスト医療質問への回答が含まれます。MedGemmaが評価されたすべてのタスクの詳細は、近日公開予定の技術レポートで確認できます。
利点
- そのサイズのモデルに対して強力なベースライン医療画像とテキスト理解を提供
- この強力な性能により、医療データ事前訓練なしの類似サイズモデルと比較して、下流の医療ベースのユースケースに適応する効率が向上
- この適応には、ユースケース、ベースライン検証要件、および望ましい性能特性に応じて、プロンプトエンジニアリング、グラウンディング、エージェントオーケストレーション、またはファインチューニングが含まれる場合があります
制限
MedGemmaは、開発者が特定のユースケースのために適切な検証、適応、および/または有意義な変更を行わずに使用することを意図していません。MedGemmaによって生成された出力は、臨床診断、患者管理決定、治療推奨、またはその他の直接的な臨床実践アプリケーションを直接通知することを意図していません。性能ベンチマークは関連ベンチマークでのベースライン能力を強調していますが、訓練データの大部分を構成する画像とテキストドメインであっても、不正確なモデル出力が可能です。MedGemmaからのすべての出力は予備的なものと見なし、確立された研究開発方法論による独立した検証、臨床的相関、およびさらなる調査が必要です。
MedGemmaのマルチモーダル機能は、主に単一画像タスクで評価されています。MedGemmaは、複数の画像の理解を含むユースケースで評価または最適化されていません。
MedGemmaは、マルチターンアプリケーションで評価または最適化されていません。
MedGemmaの訓練は、Gemma 3よりも使用される特定のプロンプトに対してより敏感にすることがあります。
MedGemmaを適応させる際、開発者は以下を考慮する必要があります:
- 検証データのバイアス: あらゆる研究と同様に、開発者は下流アプリケーションが、特定のアプリケーションの意図された使用設定(年齢、性別、性別、状態、画像デバイスなど)に適切に代表されるデータを使用して性能を理解するために検証されていることを確認する必要があります
- データ汚染の懸念: MedGemmaのような大規模モデルの医療コンテキストでの汎化能力を評価する際には、モデルが事前訓練中に関連する医療情報を誤って見てしまい、新しい医療概念に対する真の汎化能力を過大評価するリスクがあります。開発者は、公開されていないまたは非機関研究者に利用可能でないデータセットでMedGemmaを検証してこのリスクを軽減する必要があります








