モデル概要
モデル特徴
モデル能力
使用事例
license: other license_name: health-ai-developer-foundations license_link: https://developers.google.com/health-ai-developer-foundations/terms library_name: transformers pipeline_tag: image-text-to-text extra_gated_heading: Hugging FaceでMedGemmaにアクセス extra_gated_prompt: >- Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認し同意する必要があります。 これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。 リクエストは即時処理されます。 extra_gated_button_content: ライセンスを確認 base_model:
- google/medgemma-27b-text-it tags:
- medical
- unsloth
- clinical-reasoning
- thinking
Unsloth Dynamic 2.0は優れた精度を達成し、他の主要な量子化手法を凌駕します。
MedGemmaモデルカード
モデルドキュメント: MedGemma
リソース:
- Google Cloud Model Gardenのモデル: MedGemma
- Hugging Faceのモデル: MedGemma
- GitHubリポジトリ(サポートコード、Colabノートブック、ディスカッション、課題): MedGemma
- クイックスタートノートブック: GitHub
- ファインチューニングノートブック: GitHub
- MedGemmaを使用して構築された患者教育デモ
- サポート: 連絡先を参照
- ライセンス: MedGemmaの使用はHealth AI Developer Foundationsの利用規約に準拠します。
著者: Google
モデル情報
このセクションでは、MedGemmaモデルとその使用方法について説明します。
説明
MedGemmaは、医療テキストと画像理解のパフォーマンス向けにトレーニングされたGemma 3バリアントのコレクションです。開発者はMedGemmaを使用して、医療ベースのAIアプリケーションの構築を加速できます。MedGemmaは現在、4Bマルチモーダルバージョンと27Bテキスト専用バージョンの2つのバリアントで提供されています。
MedGemma 27Bは医療テキストのみでトレーニングされ、推論時の計算に最適化されています。MedGemma 27Bは、指示調整モデルとしてのみ利用可能です。
MedGemmaバリアントは、ベースラインパフォーマンスを示すために、さまざまな臨床関連ベンチマークで評価されています。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれます。開発者は、パフォーマンスを向上させるためにMedGemmaバリアントをファインチューニングできます。詳細については、以下の「意図された使用」セクションを参照してください。
完全な技術レポートは近日公開予定です。
使用方法
以下は、GPUでローカルにモデルを実行するのに役立ついくつかのコードスニペットです。大規模にモデルを使用する場合は、Model Gardenを使用して本番バージョンを作成することをお勧めします。
まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0以降でサポートされています。
$ pip install -U transformers
pipeline
APIでモデルを実行
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{
"role": "system",
"content": "あなたは役立つ医療アシスタントです。"
},
{
"role": "user",
"content": "細菌性肺炎とウイルス性肺炎をどのように区別しますか?"
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
モデルを直接実行
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "あなたは役立つ医療アシスタントです。"
},
{
"role": "user",
"content": "細菌性肺炎とウイルス性肺炎をどのように区別しますか?"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
例
MedGemmaの使用例については、以下のColabノートブックを参照してください:
-
モデルを簡単に試すには、Hugging Faceの重みを使用してローカルで実行するColabのクイックスタートノートブックを参照してください。27Bモデルを量子化せずに実行するには、Colab Enterpriseを使用する必要があることに注意してください。
-
モデルのファインチューニングの例については、Colabのファインチューニングノートブックを参照してください。
モデルアーキテクチャの概要
MedGemmaモデルはGemma 3に基づいて構築されており、Gemma 3と同じデコーダー専用トランスフォーマーアーキテクチャを使用しています。アーキテクチャの詳細については、Gemma 3のモデルカードを参照してください。
技術仕様
- モデルタイプ: デコーダー専用トランスフォーマーアーキテクチャ、Gemma 3技術レポートを参照
- モダリティ: 4B: テキスト、視覚; 27B: テキストのみ
- 注意メカニズム: グループ化クエリ注意(GQA)を利用
- コンテキスト長: 長いコンテキストをサポート、少なくとも128Kトークン
- 主要な出版物: 近日公開予定
- モデル作成日: 2025年5月20日
- モデルバージョン: 1.0.0
引用
技術レポートは近日公開予定です。それまでの間、このモデルを使用して公開する場合は、Hugging Faceのモデルページを引用してください:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [アクセス日を挿入、例: 2025-05-20]}
}
入力と出力
入力:
- 質問やプロンプトなどのテキスト文字列
- 合計入力長128Kトークン
出力:
- 入力に対する生成テキスト、質問への回答、画像内容の分析、またはドキュメントの要約など
- 合計出力長8192トークン
パフォーマンスと検証
MedGemmaは、マルチモーダル分類、レポート生成、視覚的質問応答、テキストベースのタスクなど、さまざまなタスクで評価されました。
主要なパフォーマンス指標
テキスト評価
MedGemma 4Bとテキスト専用MedGemma 27Bは、医療知識と推論に関するさまざまなテキスト専用ベンチマークで評価されました。
MedGemmaモデルは、テストされたすべてのテキスト専用医療ベンチマークで、それぞれのベースGemmaモデルを上回りました。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA (4-op) | 89.8 (best-of-5) 87.7 (0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med (テキストのみ) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA (テキストのみ) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
すべてのMedGemma 27Bの結果には、テストタイムスケーリングを使用してパフォーマンスを向上させています。
倫理と安全性の評価
評価アプローチ
私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間の評価指標を持つさまざまなチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くのカテゴリに対して評価されました:
- 児童の安全: 児童の性的虐待や搾取を含む、児童の安全ポリシーをカバーするテキストからテキストおよび画像からテキストのプロンプトの評価。
- コンテンツの安全性: ハラスメント、暴力と流血、ヘイトスピーチを含む、安全性ポリシーをカバーするテキストからテキストおよび画像からテキストのプロンプトの評価。
- 表現的害: バイアス、ステレオタイプ、有害な関連付けや不正確さを含む、安全性ポリシーをカバーするテキストからテキストおよび画像からテキストのプロンプトの評価。
- 一般的な医療的害: 情報の品質や有害な関連付けや不正確さを含む、安全性ポリシーをカバーするテキストからテキストおよび画像からテキストのプロンプトの評価。
開発レベルの評価に加えて、責任あるガバナンスの意思決定に関する「保証評価」を実施しています。これらはモデル開発チームから独立して実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは過剰適合を防ぎ、意思決定を通知する結果の能力を維持するために保持されます。注目すべき保証評価結果は、リリースレビューの一環として私たちの責任と安全評議会に報告されます。
評価結果
安全性テストのすべての領域で、児童の安全、コンテンツの安全性、表現的害のカテゴリで安全なレベルのパフォーマンスが見られました。すべてのテストは、モデルの能力と動作を評価するために安全性フィルターなしで実施されました。テキストからテキスト、画像からテキスト、オーディオからテキスト、および両方のMedGemmaモデルサイズで、モデルは最小限のポリシー違反しか生成しませんでした。私たちの評価の制限は、主に英語のプロンプトを含んでいたことです。
データカード
データセットの概要
トレーニング
ベースGemmaモデルは、大量のテキストとコードデータのコーパスで事前トレーニングされています。MedGemma 4Bは、放射線画像、組織病理学画像、眼科画像、皮膚科画像を含むさまざまな匿名化された医療データで特別に事前トレーニングされたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科画像、皮膚科画像に関連する医療テキストを含む多様な医療データでトレーニングされています。
評価
MedGemmaモデルは、22以上のデータセット、5つの異なるタスク、6つの医療画像モダリティにわたる包括的な臨床関連ベンチマークで評価されています。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれ、CXRレポート生成や放射線VQAなどのタスクには専門家の人間評価が重点的に行われています。
ソース
MedGemmaは、公開データセットと非公開データセットの組み合わせを利用しています。
このモデルは、MIMIC-CXR(胸部X線とレポート)、Slake-VQA(マルチモーダル医療画像と質問)、PAD-UFES-20(皮膚病変画像とデータ)、SCIN(皮膚科画像)、TCGA(がんゲノミクスデータ)、CAMELYON(リンパ節組織病理学画像)、PMC-OA(画像付き生物医学文献)、Mendeley Digital Knee X-Ray(膝X線)などの多様な公開データセットでトレーニングされました。
さらに、複数の多様な独自データセットがライセンスされ、組み込まれました(次に説明)。
データの所有権とドキュメント
- Mimic-CXR: MIT Laboratory for Computational Physiology and Beth Israel Deaconess Medical Center (BIDMC).
- Slake-VQA: The Hong Kong Polytechnic University (PolyU), with collaborators including West China Hospital of Sichuan University and Sichuan Academy of Medical Sciences / Sichuan Provincial People's Hospital.
- PAD-UFES-20: Federal University of Espírito Santo (UFES), Brazil, through its Dermatological and Surgical Assistance Program (PAD).
- SCIN: A collaboration between Google Health and Stanford Medicine.
- TCGA (The Cancer Genome Atlas): A joint effort of National Cancer Institute and National Human Genome Research Institute. Data from TCGA are available via the Genomic Data Commons (GDC)
- CAMELYON: The data was collected from Radboud University Medical Center and University Medical Center Utrecht in the Netherlands.
- PMC-OA (PubMed Central Open Access Subset): Maintained by the National Library of Medicine (NLM) and National Center for Biotechnology Information (NCBI), which are part of the NIH.
- MedQA: This dataset was created by a team of researchers led by Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits
- Mendeley Digital Knee X-Ray: This dataset is from Rani Channamma University, and is hosted on Mendeley Data.
- AfriMed-QA: This data was developed and led by multiple collaborating organizations and researchers include key contributors: Intron Health, SisonkeBiotik, BioRAMP, Georgia Institute of Technology, and MasakhaneNLP.
- VQA-RAD: This dataset was created by a research team led by Jason J. Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman and their affiliated institutions (the US National Library of Medicine and National Institutes of Health)
- MedExpQA: This dataset was created by researchers at the HiTZ Center (Basque Center for Language Technology and Artificial Intelligence).
- MedXpertQA: This dataset was developed by researchers at Tsinghua University (Beijing, China) and Shanghai Artificial Intelligence Laboratory (Shanghai, China).
上記の公開データセットに加えて、MedGemmaは、研究のためにライセンスされた匿名化されたデータセットまたはGoogle内の同意を得た参加者から収集されたデータセットでもトレーニングされました。
- 放射線データセット1: 米国ベースの放射線科外来診断センターネットワークからのさまざまなCT研究の匿名化されたデータセット。
- 眼科データセット1: 糖尿病性網膜症スクリーニングからの眼底画像の匿名化されたデータセット。
- 皮膚科データセット1: コロンビアからの遠隔皮膚科皮膚状態画像(臨床および皮膚鏡)の匿名化されたデータセット。
- 皮膚科データセット2: オーストラリアからの皮膚がん画像(臨床および皮膚鏡)の匿名化されたデータセット。
- 皮膚科データセット3: 内部データ収集努力からの非疾患皮膚画像の匿名化されたデータセット。
- 病理データセット1: ヨーロッパの学術研究病院とバイオバンクとの協力で作成された組織病理学H&E全スライド画像の匿名化されたデータセット。匿名化された結腸、前立腺、リンパ節を含む。
- 病理データセット2: 米国の商業バイオバンクによって作成された肺組織病理学H&EおよびIHC全スライド画像の匿名化されたデータセット。
- 病理データセット3: 米国の契約研究機関によって作成された前立腺およびリンパ節H&EおよびIHC組織病理学全スライド画像の匿名化されたデータセット。
- 病理データセット4: 米国の大規模な三次教育病院との協力で作成された組織病理学、主にH&E全スライド画像の匿名化されたデータセット。多様な組織と染色タイプを含む、主にH&E。
データ引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
匿名化/識別情報削除:
Googleとパートナーシップは、個々の研究参加者と患者のプライバシーを保護するために厳密に匿名化または識別情報が削除されたデータセットを利用しています。
実装情報
モデルの内部に関する詳細。
ソフトウェア
トレーニングはJAXを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模モデルのより高速で効率的なトレーニングが可能になります。
使用と制限
意図された使用
MedGemmaは、医療テキストと画像を含む医療アプリケーションのより効率的な開発を可能にする開始点として使用されるオープンマルチモーダル生成AIモデルです。MedGemmaは、生命科学と医療分野の開発者を対象としています。開発者は、特定の意図された使用を達成するために、MedGemmaをトレーニング、適応、有意義な変更を行う責任があります。MedGemmaモデルは、開発者が独自の独自データを使用して特定のタスクやソリューションのためにファインチューニングできます。
MedGemmaはGemma 3に基づいており、医療画像とテキストでさらにトレーニングされています。MedGemmaは、任意の医療コンテキスト(画像とテキスト)でのさらなる開発を可能にしますが、モデルは胸部X線、病理学、皮膚科、眼底画像を使用して事前トレーニングされました。MedGemmaのトレーニング内のタスクの例には、放射線写真などの医療画像に関する視覚的質問応答や、テキスト医療質問への回答の提供が含まれます。MedGemmaが評価されたすべてのタスクの詳細は、近日公開予定の技術レポートで確認できます。
利点
- そのサイズのモデルに対して強力なベースライン医療画像とテキスト理解を提供します。
- この強力なパフォーマンスにより、医療データの事前トレーニングなしの類似サイズのモデルと比較して、下流の医療ベースの使用ケースに適応するのが効率的です。
- この適応には、使用ケース、ベースライン検証要件、および望ましいパフォーマンス特性に応じて、プロンプトエンジニアリング、グラウンディング、エージェントオーケストレーション、またはファインチューニングが含まれる場合があります。
制限
MedGemmaは、開発者が特定の使用ケースのために適切な検証、適応、および/または有意義な変更を行わずに使用することを意図していません。MedGemmaによって生成された出力は、臨床診断、患者管理の決定、治療推奨、または他の直接的な臨床実践アプリケーションに直接情報を提供することを意図していません。パフォーマンスベンチマークは関連するベンチマークでのベースライン能力を強調していますが、トレーニングデータの大部分を構成する画像とテキストドメインであっても、不正確なモデル出力が可能です。MedGemmaからのすべての出力は予備的なものと見なし、独立した検証、臨床的相関、および確立された研究開発方法論によるさらなる調査が必要です。
MedGemmaのマルチモーダル能力は、主に単一画像タスクで評価されています。MedGemmaは、複数の画像の理解を含む使用ケースで評価または最適化されていません。
MedGemmaは、マルチターンアプリケーションで評価または最適化されていません。
MedGemmaのトレーニングにより、Gemma 3よりも使用される特定のプロンプトに対してより敏感になる可能性があります。
MedGemmaを適応させる際、開発者は以下を考慮する必要があります:
- 検証データのバイアス: あらゆる研究と同様に、開発者は下流アプリケーションが、特定のアプリケーションの意図された使用設定(例: 年齢、性別、性別、状態、画像デバイスなど)に適切に代表されるデータを使用してパフォーマンスを理解するために検証されていることを確認する必要があります。
- データ汚染の懸念: MedGemmaのような大規模モデルの医療コンテキストでの一般化能力を評価する際には、モデルが事前トレーニング中に関連する医療情報を誤って見てしまい、新しい医療概念に対する真の一般化能力を過大評価するリスクがあります。開発者は、公開されていないまたは非機関研究者に利用可能でないデータセットでMedGemmaを検証してこのリスクを軽減する必要があります。



