Model Overview
Model Features
Model Capabilities
Use Cases
license: other license_name: health-ai-developer-foundations license_link: https://developers.google.com/health-ai-developer-foundations/terms library_name: transformers pipeline_tag: image-text-to-text extra_gated_heading: Hugging FaceでのMedGemmaへのアクセス extra_gated_prompt: >- Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認し同意する必要があります。 これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。 リクエストは即時処理されます。 extra_gated_button_content: ライセンスを確認 base_model: google/medgemma-4b-pt tags:
- 医療
- 放射線学
- 臨床推論
- 皮膚科学
- 病理学
- 眼科学
- 胸部X線
MedGemmaモデルカード
モデルドキュメント: MedGemma
リソース:
- Google Cloud Model Gardenのモデル: MedGemma
- Hugging Faceのモデル: MedGemma
- GitHubリポジトリ(サポートコード、Colabノートブック、ディスカッション、課題): MedGemma
- クイックスタートノートブック: GitHub
- ファインチューニングノートブック: GitHub
- MedGemmaを使用して構築された患者教育デモ
- サポート: 連絡先を参照
- ライセンス: MedGemmaの使用はHealth AI Developer Foundationsの利用規約に準拠します。
著者: Google
モデル情報
このセクションでは、MedGemmaモデルとその使用方法について説明します。
説明
MedGemmaは、医療テキストと画像理解のパフォーマンス向けに訓練されたGemma 3のバリエーションのコレクションです。開発者はMedGemmaを使用して、医療ベースのAIアプリケーションの構築を加速できます。MedGemmaは現在、4Bのマルチモーダルバージョンと27Bのテキストのみのバージョンの2つのバリエーションで提供されています。
MedGemma 4Bは、胸部X線、皮膚科学画像、眼科学画像、組織病理学スライドなど、さまざまな匿名化された医療データで特別に事前訓練されたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、組織病理学パッチ、眼科学画像、皮膚科学画像を含む多様な医療データで訓練されています。
MedGemma 4Bは、事前訓練済み(接尾辞: -pt
)と指示調整済み(接尾辞 -it
)の両方のバージョンで利用可能です。指示調整済みバージョンは、ほとんどのアプリケーションにとってより良い出発点です。事前訓練済みバージョンは、モデルをより深く実験したい人向けに利用可能です。
MedGemma 27Bは、医療テキストのみで訓練され、推論時の計算に最適化されています。MedGemma 27Bは、指示調整済みモデルとしてのみ利用可能です。
MedGemmaのバリエーションは、ベースラインパフォーマンスを示すために、臨床的に関連するさまざまなベンチマークで評価されています。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれます。開発者は、パフォーマンスを向上させるためにMedGemmaのバリエーションをファインチューニングできます。詳細については、以下の「意図された使用」セクションを参照してください。
完全な技術レポートは近日中に公開されます。
使用方法
以下は、GPUでローカルにモデルを迅速に実行するためのいくつかのコードスニペットです。大規模にモデルを使用する場合は、Model Gardenを使用してプロダクション版を作成することをお勧めします。
まず、Transformersライブラリをインストールします。Gemma 3は、transformers 4.50.0以降でサポートされています。
$ pip install -U transformers
pipeline
APIでモデルを実行
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# 画像属性: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは放射線科の専門家です。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "このX線を説明してください"},
{"type": "image", "image": image},
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
モデルを直接実行
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# 画像属性: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは放射線科の専門家です。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "このX線を説明してください"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
例
MedGemmaの使用方法の例については、以下のColabノートブックを参照してください:
-
モデルを簡単に試すには、Hugging Faceの重みを使用してローカルで実行する場合、Colabでのクイックスタートノートブックを参照してください。 27Bモデルを量子化せずに実行するには、Colab Enterpriseを使用する必要があることに注意してください。
-
モデルのファインチューニングの例については、Colabでのファインチューニングノートブックを参照してください。
モデルアーキテクチャの概要
MedGemmaモデルはGemma 3に基づいて構築されており、Gemma 3と同じデコーダー専用のトランスフォーマーアーキテクチャを使用しています。アーキテクチャの詳細については、Gemma 3のモデルカードを参照してください。
技術仕様
- モデルタイプ: デコーダー専用トランスフォーマーアーキテクチャ、Gemma 3技術レポートを参照
- モダリティ: 4B: テキスト、視覚; 27B: テキストのみ
- 注意メカニズム: グループ化クエリ注意(GQA)を利用
- コンテキスト長: 長いコンテキストをサポート、少なくとも128Kトークン
- 主要な出版物: 近日公開
- モデル作成日: 2025年5月20日
- モデルバージョン: 1.0.0
引用
技術レポートは近日公開予定です。それまでの間、このモデルを使用して公開する場合は、Hugging Faceのモデルページを引用してください:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [アクセス日を挿入、例: 2025-05-20]}
}
入力と出力
入力:
- テキスト文字列(質問やプロンプトなど)
- 画像(896 x 896解像度に正規化され、それぞれ256トークンにエンコード)
- 合計入力長128Kトークン
出力:
- 入力に対する生成テキスト(質問への回答、画像内容の分析、ドキュメントの要約など)
- 合計出力長8192トークン
パフォーマンスと検証
MedGemmaは、多様なマルチモーダル分類、レポート生成、視覚的質問応答、テキストベースのタスクで評価されています。
主要なパフォーマンス指標
画像評価
MedGemma 4Bのマルチモーダルパフォーマンスは、放射線学、皮膚科学、組織病理学、眼科学、マルチモーダル臨床推論に焦点を当てたさまざまなベンチマークで評価されました。
MedGemma 4Bは、テストされたすべてのマルチモーダル医療ベンチマークでベースGemma 3 4Bモデルを上回りました。
タスクと指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医療画像分類 | ||
MIMIC CXR - 上位5疾患の平均F1 | 88.9 | 81.1 |
CheXpert CXR - 上位5疾患の平均F1 | 48.1 | 31.2 |
DermMCQA* - 精度 | 71.8 | 42.6 |
視覚的質問応答 | ||
SlakeVQA(放射線学) - トークン化F1 | 62.3 | 38.6 |
VQA-Rad**(放射線学) - トークン化F1 | 49.9 | 38.6 |
PathMCQA(組織病理学、内部***) - 精度 | 69.8 | 37.1 |
知識と推論 | ||
MedXpertQA(テキスト + マルチモーダル質問) - 精度 | 18.8 | 16.4 |
*Liu (2020, Nature medicine)で説明、皮膚状態分類の4択MCQとして提示
**Yang (2024, arXiv)の「バランス分割」に基づく
***複数のデータセットに基づく、乳がん、子宮頸がん、前立腺がんの識別、グレーディング、サブタイプの3-9択MCQとして提示
胸部X線レポート生成
MedGemmaの胸部X線(CXR)レポート生成パフォーマンスは、MIMIC-CXRでRadGraph F1指標を使用して評価されました。MedGemma事前訓練済みチェックポイントを、CXRレポート生成の以前の最高モデルであるPaliGemma 2と比較しています。
指標 | MedGemma 4B(事前訓練済み) | PaliGemma 2 3B(CXR用調整) | PaliGemma 2 10B(CXR用調整) |
---|---|---|---|
胸部X線レポート生成 | |||
MIMIC CXR - RadGraph F1 | 29.5 | 28.8 | 29.5 |
MedGemma 4BとGemma 3 4Bの指示調整済みバージョンは、MIMICのグラウンドトゥルースレポートとの報告スタイルの違いにより、低いスコア(それぞれ0.22と0.12)を達成しています。MIMICレポートでのさらなるファインチューニングにより、ユーザーはパフォーマンスを向上させることができます。
テキスト評価
MedGemma 4BとテキストのみのMedGemma 27Bは、医療知識と推論のためのさまざまなテキストのみのベンチマークで評価されました。
MedGemmaモデルは、テストされたすべてのテキストのみの医療ベンチマークで、それぞれのベースGemmaモデルを上回りました。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4択) | 89.8(best-of-5) 87.7(0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(テキストのみ) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(テキストのみ) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
すべてのMedGemma 27Bの結果には、パフォーマンスを向上させるためにテストタイムスケーリングが使用されています。
倫理と安全性の評価
評価アプローチ
私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くのカテゴリに対して評価されました:
- 児童保護: 児童保護ポリシー(児童性的虐待や搾取を含む)をカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- コンテンツ安全性: ハラスメント、暴力や流血、ヘイトスピーチなどの安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- 表現的害: バイアス、ステレオタイプ、有害な関連付けや不正確さなどの安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- 一般的な医療的害: 情報品質や有害な関連付けや不正確さなどの安全性ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
開発レベルの評価に加えて、責任あるガバナンスの意思決定を通知するための「保証評価」を実施しています。これらはモデル開発チームから独立して実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは過剰適合を防ぎ、意思決定を通知する結果の能力を維持するために保持されます。注目すべき保証評価結果は、リリースレビューの一環として私たちの責任と安全評議会に報告されます。
評価結果
安全性テストのすべての領域で、児童保護、コンテンツ安全性、表現的害のカテゴリにおいて安全なレベルのパフォーマンスが見られました。すべてのテストは、モデルの能力と動作を評価するために安全性フィルターなしで実施されました。テキストからテキスト、画像からテキスト、音声からテキストの両方で、また両方のMedGemmaモデルサイズで、モデルは最小限のポリシー違反しか生成しませんでした。私たちの評価の制限は、主に英語のプロンプトを含んでいたことです。
データカード
データセット概要
訓練
ベースGemmaモデルは、大量のテキストとコードデータのコーパスで事前訓練されています。MedGemma 4Bは、胸部X線、組織病理学画像、眼科学画像、皮膚科学画像など、さまざまな匿名化された医療データで特別に事前訓練されたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科学画像、皮膚科学画像に関連する医療テキストを含む多様な医療データで訓練されています。
評価
MedGemmaモデルは、臨床的に関連する包括的なベンチマークセットで評価されており、5つの異なるタスクと6つの医療画像モダリティにわたる22以上のデータセットが含まれます。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれ、CXRレポート生成や放射線学VQAなどのタスクについては専門家の人間評価に焦点を当てています。
ソース
MedGemmaは、公開データセットと非公開データセットの組み合わせを利用しています。
このモデルは、MIMIC-CXR(胸部X線とレポート)、Slake-VQA(マルチモーダル医療画像と質問)、PAD-UFES-20(皮膚病変画像とデータ)、SCIN(皮膚科学画像)、TCGA(がんゲノミクスデータ)、CAMELYON(リンパ節組織病理学画像)、PMC-OA(画像付き生物医学文献)、Mendeley Digital Knee X-Ray(膝X線)などの多様な公開データセットで訓練されました。
さらに、複数の多様な非公開データセットがライセンスされ、組み込まれました(次に説明)。
データ所有権とドキュメント
- Mimic-CXR: MIT Laboratory for Computational Physiology and Beth Israel Deaconess Medical Center (BIDMC).
- Slake-VQA: The Hong Kong Polytechnic University (PolyU), with collaborators including West China Hospital of Sichuan University and Sichuan Academy of Medical Sciences / Sichuan Provincial People's Hospital.
- PAD-UFES-20: Federal University of Espírito Santo (UFES), Brazil, through its Dermatological and Surgical Assistance Program (PAD).
- SCIN: A collaboration between Google Health and Stanford Medicine.
- TCGA (The Cancer Genome Atlas): A joint effort of National Cancer Institute and National Human Genome Research Institute. Data from TCGA are available via the Genomic Data Commons (GDC)
- CAMELYON: The data was collected from Radboud University Medical Center and University Medical Center Utrecht in the Netherlands.
- PMC-OA (PubMed Central Open Access Subset): Maintained by the National Library of Medicine (NLM) and National Center for Biotechnology Information (NCBI), which are part of the NIH.
- MedQA: This dataset was created by a team of researchers led by Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits
- Mendeley Digital Knee X-Ray: This dataset is from Rani Channamma University, and is hosted on Mendeley Data.
- AfriMed-QA: This data was developed and led by multiple collaborating organizations and researchers include key contributors: Intron Health, SisonkeBiotik, BioRAMP, Georgia Institute of Technology, and MasakhaneNLP.
- VQA-RAD: This dataset was created by a research team led by Jason J. Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman and their affiliated institutions (the US National Library of Medicine and National Institutes of Health)
- MedExpQA: This dataset was created by researchers at the HiTZ Center (Basque Center for Language Technology and Artificial Intelligence).
- MedXpertQA: This dataset was developed by researchers at Tsinghua University (Beijing, China) and Shanghai Artificial Intelligence Laboratory (Shanghai, China).
上記の公開データセットに加えて、MedGemmaは、研究のためにライセンスされた匿名化データセットまたはGoogle内で同意を得た参加者から収集されたデータでも訓練されました。
- 放射線学データセット1: 米国ベースの放射線学外来診断センターネットワークからのさまざまなCT研究の匿名化データセット。
- 眼科学データセット1: 糖尿病網膜症スクリーニングからの匿名化された眼底画像データセット。
- 皮膚科学データセット1: コロンビアからの遠隔皮膚科学皮膚状態画像(臨床および皮膚鏡)の匿名化データセット。
- 皮膚科学データセット2: オーストラリアからの皮膚がん画像(臨床および皮膚鏡)の匿名化データセット。
- 皮膚科学データセット3: 内部データ収集努力からの非疾患皮膚画像の匿名化データセット。
- 病理学データセット1: 欧州の学術研究病院とバイオバンクとの協力で作成された匿名化された組織病理学H&E全スライド画像データセット。大腸、前立腺、リンパ節を含む。
- 病理学データセット2: 米国の商業バイオバンクによって作成された肺組織病理学H&EおよびIHC全スライド画像の匿名化データセット。
- 病理学データセット3: 米国の契約研究機関によって作成された前立腺およびリンパ節H&EおよびIHC組織病理学全スライド画像の匿名化データセット。
- 病理学データセット4: 米国の大規模な三次教育病院との協力で作成された匿名化された組織病理学、主にH&E全スライド画像データセット。多様な組織と染色タイプを含む、主にH&E。
データ引用
-
MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ and Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
-
SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021.SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
-
PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
-
SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
-
TCGA The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
-
CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
-
MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
-
Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
-
AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
-
VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
-
MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
-
MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
匿名化/匿名化:
Googleとパートナーシップは、個々の研究参加者と患者のプライバシーを保護するために厳密に匿名化または匿名化されたデータセットを利用しています。
実装情報
モデルの内部に関する詳細。
ソフトウェア
訓練はJAXを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模モデルのより高速で効率的な訓練が可能になります。
使用と制限
意図された使用
MedGemmaは、医療テキストと画像を含む医療アプリケーションのより効率的な開発を可能にする出発点として使用されることを意図したオープンマルチモーダル生成AIモデルです。MedGemmaは、生命科学と医療分野の開発者を対象としています。開発者は、特定の意図された使用を達成するためにMedGemmaを訓練、適応、有意義な変更を行う責任があります。MedGemmaモデルは、開発者が独自の非公開データを使用して特定のタスクやソリューションのためにファインチューニングできます。
MedGemmaはGemma 3に基づいており、医療画像とテキストでさらに訓練されています。MedGemmaは、任意の医療コンテキスト(画像とテキスト)でのさらなる開発を可能にしますが、モデルは胸部X線、病理学、皮膚科学、眼底画像を使用して事前訓練されています。MedGemmaの訓練内のタスクの例には、X線などの医療画像に関する視覚的質問応答や、テキスト医療質問への回答が含まれます。MedGemmaが評価されたすべてのタスクの詳細は、近日公開予定の技術レポートに記載されます。
利点
- そのサイズのモデルに対して強力なベースライン医療画像とテキスト理解を提供。
- この強力なパフォーマンスにより、医療データ事前訓練なしの同サイズモデルと比較して、下流の医療ベースのユースケースに適応するのが効率的。
- この適応には、ユースケース、ベースライン検証要件、および望ましいパフォーマンス特性に応じて、プロンプトエンジニアリング、グラウンディング、エージェントオーケストレーション、またはファインチューニングが含まれる場合があります。
制限
MedGemmaは、開発者が特定のユースケースのために適切な検証、適応、および/または有意義な変更を行わずに使用することを意図していません。MedGemmaによって生成された出力は、臨床診断、患者管理決定、治療推奨、またはその他の直接的な臨床実践アプリケーションに直接通知することを意図していません。パフォーマンスベンチマークは、関連するベンチマークでのベースライン能力を強調していますが、訓練データの大部分を構成する画像とテキストドメインであっても、不正確なモデル出力が可能です。MedGemmaからのすべての出力は予備的なものと見なされ、独立した検証、臨床的相関、および確立された研究開発方法論によるさらなる調査が必要です。
MedGemmaのマルチモーダル能力は、主に単一画像タスクで評価されています。MedGemmaは、複数の画像の理解を含むユースケースで評価されていません。
MedGemmaは、マルチターンアプリケーション向けに評価または最適化されていません。
MedGemmaの訓練は、Gemma 3よりも使用される特定のプロンプトに対してより敏感にする可能性があります。
MedGemmaを適応する際に開発者は以下を考慮する必要があります:
- 検証データのバイアス: あらゆる研究と同様に、開発者は、特定のアプリケーションの意図された使用設定(年齢、性別、性別、状態、画像デバイスなど)に適切に代表されるデータを使用してパフォーマンスを理解するために、下流アプリケーションを検証する必要があります。
- データ汚染の懸念: MedGemmaのような大規模モデルの医療コンテキストでの汎化能力を評価する際には、モデルが事前訓練中に関連する医療情報を誤って見てしまい、新しい医療概念への真の汎化能力を過大評価するリスクがあります。開発者は、非機関研究者に公開されていないデータセットでMedGemmaを検証することで、このリスクを軽減する必要があります。








