モデル概要
モデル特徴
モデル能力
使用事例
## 🚀 MedGemmaモデルカード
MedGemmaは、医療分野のテキストと画像の理解に特化したモデルです。開発者はこのモデルを利用して、医療系のAIアプリケーションの構築を加速することができます。
## 🚀 クイックスタート
このセクションでは、MedGemmaモデルの概要と使い方を説明します。
### 説明
MedGemmaは、[Gemma 3](https://ai.google.dev/gemma/docs/core)のバリアントのコレクションで、医療テキストと画像の理解性能を高めるために訓練されています。開発者は、医療系のAIアプリケーションの構築を加速するためにMedGemmaを利用できます。現在、MedGemmaには4Bのマルチモーダルバージョンと27Bのテキスト専用バージョンの2種類があります。
MedGemma 4Bは、[SigLIP](https://arxiv.org/abs/2303.15343)画像エンコーダを利用しており、胸部X線、皮膚科画像、眼科画像、組織病理学スライドなど、さまざまな匿名化された医療データで事前学習されています。そのLLMコンポーネントは、放射線画像、組織病理学パッチ、眼科画像、皮膚科画像など、多様な医療データで訓練されています。
MedGemma 4Bは、事前学習済み(接尾辞: `-pt`)と命令微調整済み(接尾辞 `-it`)の2つのバージョンがあります。命令微調整済みバージョンは、ほとんどのアプリケーションに適したスタート地点です。事前学習済みバージョンは、モデルをより深く実験したい人向けです。
MedGemma 27Bは、医療テキストのみで訓練され、推論時の計算が最適化されています。MedGemma 27Bは、命令微調整済みモデルとしてのみ提供されています。
MedGemmaのバリアントは、臨床的に関連するさまざまなベンチマークで評価され、ベースライン性能が示されています。これには、オープンベンチマークデータセットと独自データセットの両方が含まれます。開発者は、MedGemmaのバリアントを微調整して性能を向上させることができます。詳細については、以下の「意図された使用方法」セクションを参照してください。
完全な技術レポートは近日公開予定です。
### 使い方
以下は、モデルをローカルのGPUですぐに実行するためのサンプルコードです。大規模でモデルを使用する場合は、[Model Garden](https://cloud.google.com/model-garden)を使用して本番バージョンを作成することをお勧めします。
まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0以降でサポートされています。
```sh
$ pip install -U transformers
pipeline
APIでモデルを実行する
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
モデルを直接実行する
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
例
MedGemmaの使用例については、以下のColabノートブックを参照してください。
-
モデルをすぐに試してみるには、Hugging Faceの重みを使用してローカルで実行するには、Colabのクイックスタートノートブックを参照してください。27Bモデルを量子化せずに実行するには、Colab Enterpriseを使用する必要があります。
-
モデルの微調整の例については、Colabの微調整ノートブックを参照してください。
モデルアーキテクチャの概要
MedGemmaモデルは、Gemma 3をベースに構築されており、Gemma 3と同じデコーダ専用のTransformerアーキテクチャを使用しています。アーキテクチャの詳細については、Gemma 3のモデルカードを参照してください。
技術仕様
プロパティ | 詳細 |
---|---|
モデルタイプ | デコーダ専用のTransformerアーキテクチャ、Gemma 3の技術レポートを参照 |
モダリティ | 4B: テキスト、ビジョン; 27B: テキストのみ |
アテンションメカニズム | グループ化クエリアテンション(GQA)を利用 |
コンテキスト長 | 長いコンテキストをサポート、少なくとも128Kトークン |
主要な論文 | 近日公開 |
モデル作成日 | 2025年5月20日 |
モデルバージョン | 1.0.0 |
引用
技術レポートは近日公開予定です。それまでの間、このモデルを使用して論文を発表する場合は、Hugging Faceのモデルページを引用してください。
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
入力と出力
入力:
- テキスト文字列、例えば質問やプロンプト
- 画像、896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされる
- 合計入力長128Kトークン
出力:
- 入力に対する生成テキスト、例えば質問への回答、画像内容の分析、またはドキュメントの要約
- 合計出力長8192トークン
性能と検証
MedGemmaは、さまざまなマルチモーダル分類、レポート生成、ビジュアル質問応答、およびテキストベースのタスクで評価されました。
主要な性能指標
画像評価
MedGemma 4Bのマルチモーダル性能は、放射線学、皮膚科、組織病理学、眼科、およびマルチモーダル臨床推論に焦点を当てたさまざまなベンチマークで評価されました。
MedGemma 4Bは、テストされたすべてのマルチモーダル医療ベンチマークで、ベースのGemma 3 4Bモデルを上回っています。
タスクと指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医療画像分類 | ||
MIMIC CXR - 上位5つの症状の平均F1 | 88.9 | 81.1 |
CheXpert CXR - 上位5つの症状の平均F1 | 48.1 | 31.2 |
DermMCQA* - 正解率 | 71.8 | 42.6 |
ビジュアル質問応答 | ||
SlakeVQA(放射線学) - トークン化されたF1 | 62.3 | 38.6 |
VQA-Rad**(放射線学) - トークン化されたF1 | 49.9 | 38.6 |
PathMCQA(組織病理学、内部***) - 正解率 | 69.8 | 37.1 |
知識と推論 | ||
MedXpertQA(テキスト + マルチモーダル質問) - 正解率 | 18.8 | 16.4 |
*Liu (2020, Nature medicine)で説明されており、皮膚状態分類のための4択のMCQとして提示されています。
**Yang (2024, arXiv)で説明されている「バランスの取れた分割」に基づいています。
***複数のデータセットに基づいており、乳がん、子宮頸がん、および前立腺がんの識別、グレーディング、およびサブタイプのための3 - 9択のMCQとして提示されています。
胸部X線レポート生成
MedGemmaの胸部X線(CXR)レポート生成性能は、MIMIC-CXRを使用して、RadGraph F1メトリックで評価されました。MedGemmaの事前学習済みチェックポイントを、CXRレポート生成のための以前の最高モデルであるPaliGemma 2と比較しました。
指標 | MedGemma 4B(事前学習済み) | PaliGemma 2 3B(CXR用に微調整) | PaliGemma 2 10B(CXR用に微調整) |
---|---|---|---|
胸部X線レポート生成 | |||
MIMIC CXR - RadGraph F1 | 29.5 | 28.8 | 29.5 |
MedGemma 4BとGemma 3 4Bの命令微調整済みバージョンは、MIMICのグラウンドトゥルースレポートと比較してレポートスタイルが異なるため、スコアが低くなります(それぞれ0.22と0.12)。MIMICレポートでさらに微調整することで、ユーザーは性能を向上させることができます。
テキスト評価
MedGemma 4Bとテキスト専用のMedGemma 27Bは、医療知識と推論のためのさまざまなテキスト専用ベンチマークで評価されました。
MedGemmaモデルは、テストされたすべてのテキスト専用医療ベンチマークで、それぞれのベースのGemmaモデルを上回っています。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4択) | 89.8(ベストオブ5) 87.7(0ショット) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(テキストのみ) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(テキストのみ) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
すべてのMedGemma 27Bの結果には、テスト時スケーリングが性能向上のために使用されています。
倫理と安全性評価
評価アプローチ
私たちの評価方法には、構造化された評価と、関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、それぞれ異なる目標と人間による評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。
- 子どもの安全: 子どもの性的虐待や搾取などの子どもの安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- コンテンツの安全: 嫌がらせ、暴力や残虐描写、および憎しみの言葉などの安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- 表現上の危害: 偏見、ステレオタイプ、および有害な関連付けや不正確さなどの安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- 一般的な医療上の危害: 情報の質や有害な関連付けや不正確さなどの安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
開発レベルの評価に加えて、私たちは「保証評価」を実施しています。これは、責任管理の意思決定のための「独立した」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に役立てられます。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持されて、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。注目すべき保証評価結果は、リリースレビューの一環として私たちの責任と安全委員会に報告されます。
評価結果
すべての安全テストの分野で、子どもの安全、コンテンツの安全、および表現上の危害のカテゴリで安全なレベルの性能が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキスト対テキスト、画像対テキスト、および音声対テキスト、および両方のMedGemmaモデルサイズにわたって、モデルは最小限のポリシー違反を生み出しました。私たちの評価の制限は、主に英語のプロンプトが含まれていたことです。
📚 データカード
データセットの概要
訓練
ベースのGemmaモデルは、大量のテキストとコードデータで事前学習されています。MedGemma 4Bは、SigLIP画像エンコーダを利用しており、放射線画像、組織病理学画像、眼科画像、皮膚科画像など、さまざまな匿名化された医療データで事前学習されています。そのLLMコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科画像、皮膚科画像に関連する医療テキストなど、多様な医療データで訓練されています。
評価
MedGemmaモデルは、臨床的に関連する包括的なベンチマークセットで評価されました。これには、5つの異なるタスクと6つの医療画像モダリティにわたる22以上のデータセットが含まれます。これには、オープンベンチマークデータセットと独自データセットの両方が含まれ、CXRレポート生成や放射線学のVQAなどのタスクについては、専門家による人間の評価に重点が置かれています。
ソース
MedGemmaは、公開データセットと非公開データセットを組み合わせて利用しています。
このモデルは、MIMIC-CXR(胸部X線とレポート)、Slake-VQA(マルチモーダル医療画像と質問)、PAD-UFES-20(皮膚病変画像とデータ)、SCIN(皮膚科画像)、TCGA(がんゲノミクスデータ)、CAMELYON(リンパ節組織病理学画像)、PMC-OA(画像付きの生物医学文献)、およびMendeley Digital Knee X-Ray(膝のX線)などの多様な公開データセットで訓練されています。
さらに、複数の多様な独自データセットがライセンスされ、組み込まれています(次に説明します)。
データの所有権とドキュメント
- Mimic-CXR: MITコンピュータ生理学研究所とベス・イスラエル・ディアコネス病院(BIDMC)
- Slake-VQA: 香港理工大学(PolyU)、四川大学华西病院や四川省医学科学院/四川省人民病院などの共同研究者と協力
- PAD-UFES-20: ブラジルのエスピリトサント連邦大学(UFES)、その皮膚科および外科援助プログラム(PAD)を通じて
- SCIN: Google Healthとスタンフォード医学の共同研究
- TCGA(The Cancer Genome Atlas): 国立がん研究所と国立ヒトゲノム研究所の共同努力。TCGAのデータは、Genomic Data Commons(GDC)を通じて利用可能
- CAMELYON: データは、オランダのラドバウト大学医学センターとウトレヒト大学医学センターから収集されました。
- PMC-OA(PubMed Central Open Access Subset): 国立医学図書館(NLM)と国立バイオテクノロジー情報センター(NCBI)によって管理されており、これらはNIHの一部です。
- MedQA: このデータセットは、Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang、およびPeter Szolovitsを中心とする研究者チームによって作成されました。
- Mendeley Digital Knee X-Ray: このデータセットはラニ・チャンナマ大学のもので、Mendeley Dataにホストされています。
- AfriMed-QA: このデータは、複数の協力組織と研究者によって開発および主導されており、主要な貢献者には、Intron Health、SisonkeBiotik、BioRAMP、ジョージア工科大学、およびMasakhaneNLPが含まれます。
- VQA-RAD: このデータセットは、Jason J. Lau、Soumya Gayen、Asma Ben Abacha、およびDina Demner-Fushmanを中心とする研究チームによって作成されました。
- MedExpQA: このデータセットは、HiTZセンター(バスク語技術と人工知能センター)の研究者によって作成されました。
- MedXpertQA: このデータセットは、清華大学(中国北京)と上海人工知能実験室(中国上海)の研究者によって開発されました。
上記の公開データセットに加えて、MedGemmaは、研究用にライセンスされた匿名化データセット、またはGoogle内部で同意を得た参加者から収集されたデータセットでも訓練されています。
- 放射線学データセット1: 米国の放射線外来診断センターネットワークからの身体各部のさまざまなCT研究の匿名化データセット。
- 眼科データセット1: 糖尿病性網膜症スクリーニングからの眼底画像の匿名化データセット。
- 皮膚科データセット1: コロンビアからの遠隔皮膚科の皮膚状態画像(臨床および皮膚鏡検査の両方)の匿名化データセット。
- 皮膚科データセット2: オーストラリアからの皮膚がん画像(臨床および皮膚鏡検査の両方)の匿名化データセット。
- 皮膚科データセット3: 内部データ収集活動からの非病的な皮膚画像の匿名化データセット。
- 病理学データセット1: ヨーロッパの学術研究病院とバイオバンクとの共同で作成された組織病理学H&E全スライド画像の匿名化データセット。結腸、前立腺、およびリンパ節の匿名化データが含まれます。
- 病理学データセット2: 肺の組織病理学H&Eの匿名化データセット
📄 ライセンス
MedGemmaの使用は、Health AI Developer Foundationsの利用規約によって管理されています。
Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認して同意する必要があります。これを行うには、Hugging Faceにログインして以下をクリックしてください。リクエストはすぐに処理されます。
⚠️ 重要提示
Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認して同意する必要があります。
以上の出力では、元のREADME文書を日本語に翻訳し、指定された美化規則に基づいて情報を整理し、emojiや視覚的な要素を追加してユーザー体験を向上させました。また、コードブロックやAPI名、URLリンク、ブランド名、ファイル名などはそのまま保持し、引用形式も適切に処理しました。








