モデル概要
モデル特徴
モデル能力
使用事例
license: other license_name: health-ai-developer-foundations license_link: https://developers.google.com/health-ai-developer-foundations/terms library_name: transformers pipeline_tag: image-text-to-text extra_gated_heading: Hugging FaceでのMedGemmaへのアクセス extra_gated_prompt: >- Hugging FaceでMedGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認し同意する必要があります。 これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。 リクエストは即時処理されます。 extra_gated_button_content: ライセンスを確認 base_model: google/gemma-3-4b-pt tags:
- 医療
- 放射線学
- 臨床推論
- 皮膚科学
- 病理学
- 眼科学
- 胸部X線
MedGemmaモデルカード
モデルドキュメント: MedGemma
リソース:
- Google Cloud Model Gardenのモデル: MedGemma
- Hugging Faceのモデル: MedGemma
- GitHubリポジトリ(サポートコード、Colabノートブック、ディスカッション、課題): MedGemma
- クイックスタートノートブック: GitHub
- ファインチューニングノートブック: GitHub
- MedGemmaを使用して構築された患者教育デモ
- サポート: 連絡先を参照
- ライセンス: MedGemmaの使用はHealth AI Developer Foundationsの利用規約に準拠します。
著者: Google
モデル情報
このセクションでは、MedGemmaモデルとその使用方法について説明します。
説明
MedGemmaは、医療テキストと画像理解のパフォーマンス向けにトレーニングされたGemma 3のバリアントのコレクションです。開発者はMedGemmaを使用して、医療ベースのAIアプリケーションの構築を加速できます。MedGemmaは現在、2つのバリアントで提供されています: 4Bマルチモーダル版と27Bテキスト専用版です。
MedGemma 4Bは、胸部X線、皮膚科画像、眼科画像、組織病理学スライドなど、さまざまな匿名化された医療データで特別に事前トレーニングされたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、組織病理学パッチ、眼科画像、皮膚科画像を含む多様な医療データセットでトレーニングされています。
MedGemma 4Bは、事前トレーニング版(接尾辞: -pt
)と指示チューニング版(接尾辞: -it
)の両方で利用可能です。指示チューニング版は、ほとんどのアプリケーションにとってより良い出発点です。事前トレーニング版は、モデルをより深く実験したいユーザー向けに利用可能です。
MedGemma 27Bは、医療テキストのみでトレーニングされ、推論時の計算に最適化されています。MedGemma 27Bは、指示チューニングモデルとしてのみ利用可能です。
MedGemmaのバリアントは、そのベースラインパフォーマンスを示すために、臨床的に関連するさまざまなベンチマークで評価されています。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれます。開発者は、パフォーマンスを向上させるためにMedGemmaのバリアントをファインチューニングできます。詳細については、以下の「意図された使用法」セクションを参照してください。
完全な技術レポートは近日中に公開予定です。
使用方法
以下は、GPUでローカルにモデルを迅速に実行するためのいくつかのコードスニペットです。大規模にモデルを使用する場合は、Model Gardenを使用して本番バージョンを作成することをお勧めします。
まず、Transformersライブラリをインストールします。Gemma 3は、transformers 4.50.0以降でサポートされています。
$ pip install -U transformers
pipeline
APIでモデルを実行
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
# 画像属性: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
モデルを直接実行
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# 画像属性: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
例
MedGemmaの使用方法の例については、以下のColabノートブックを参照してください:
-
モデルを簡単に試すには、Hugging Faceからの重みを使用してローカルで実行する方法をクイックスタートノートブックで確認してください。27Bモデルを量子化せずに実行するには、Colab Enterpriseを使用する必要があることに注意してください。
-
モデルのファインチューニングの例については、ファインチューニングノートブックを参照してください。
モデルアーキテクチャの概要
MedGemmaモデルはGemma 3をベースに構築されており、Gemma 3と同じデコーダー専用トランスフォーマーアーキテクチャを使用しています。アーキテクチャの詳細については、Gemma 3のモデルカードを参照してください。
技術仕様
- モデルタイプ: デコーダー専用トランスフォーマーアーキテクチャ、Gemma 3技術レポートを参照
- モダリティ: 4B: テキスト、視覚; 27B: テキストのみ
- 注意メカニズム: グループ化クエリ注意(GQA)を利用
- コンテキスト長: 長いコンテキストをサポート、少なくとも128Kトークン
- 主要な出版物: 近日公開予定
- モデル作成日: 2025年5月20日
- モデルバージョン: 1.0.0
引用
技術レポートは近日中に公開予定です。それまでの間、このモデルを使用して公開する場合は、Hugging Faceのモデルページを引用してください:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [アクセス日を挿入、例: 2025-05-20]}
}
入力と出力
入力:
- 質問やプロンプトなどのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 128Kトークンの総入力長
出力:
- 入力に対する応答として生成されたテキスト、質問への回答、画像内容の分析、文書の要約など
- 8192トークンの総出力長
パフォーマンスと検証
MedGemmaは、マルチモーダル分類、レポート生成、視覚的質問応答、テキストベースのタスクなど、さまざまなタスクで評価されました。
主要なパフォーマンス指標
画像評価
MedGemma 4Bのマルチモーダルパフォーマンスは、放射線学、皮膚科学、組織病理学、眼科学、マルチモーダル臨床推論に焦点を当てたさまざまなベンチマークで評価されました。
MedGemma 4Bは、テストされたすべてのマルチモーダル医療ベンチマークで、ベースのGemma 3 4Bモデルを上回りました。
タスクと指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医療画像分類 | ||
MIMIC CXR - 上位5病状の平均F1 | 88.9 | 81.1 |
CheXpert CXR - 上位5病状の平均F1 | 48.1 | 31.2 |
DermMCQA* - 精度 | 71.8 | 42.6 |
視覚的質問応答 | ||
SlakeVQA(放射線学)- トークン化F1 | 62.3 | 38.6 |
VQA-Rad**(放射線学)- トークン化F1 | 49.9 | 38.6 |
PathMCQA(組織病理学、内部***)- 精度 | 69.8 | 37.1 |
知識と推論 | ||
MedXpertQA(テキスト + マルチモーダル質問)- 精度 | 18.8 | 16.4 |
*Liu (2020, Nature medicine)で説明されており、皮膚状態分類のための4択MCQとして提示されています。
**Yang (2024, arXiv)で説明されている「バランスドスプリット」に基づいています。
***複数のデータセットに基づいており、乳がん、子宮頸がん、前立腺がんの識別、グレーディング、サブタイプのための3-9択MCQとして提示されています。
胸部X線レポート生成
MedGemmaの胸部X線(CXR)レポート生成パフォーマンスは、MIMIC-CXRでRadGraph F1メトリックを使用して評価されました。MedGemmaの事前トレーニングチェックポイントを、CXRレポート生成の以前の最高モデルであるPaliGemma 2と比較しています。
メトリック | MedGemma 4B(事前トレーニング) | PaliGemma 2 3B(CXR向けチューニング) | PaliGemma 2 10B(CXR向けチューニング) |
---|---|---|---|
胸部X線レポート生成 | |||
MIMIC CXR - RadGraph F1 | 29.5 | 28.8 | 29.5 |
指示チューニング版のMedGemma 4BとGemma 3 4Bは、MIMICのグラウンドトゥルースレポートとの報告スタイルの違いにより、低いスコア(それぞれ0.22と0.12)を達成しています。MIMICレポートでのさらなるファインチューニングにより、ユーザーは改善されたパフォーマンスを達成できます。
テキスト評価
MedGemma 4Bとテキスト専用のMedGemma 27Bは、医療知識と推論のためのさまざまなテキスト専用ベンチマークで評価されました。
MedGemmaモデルは、テストされたすべてのテキスト専用医療ベンチマークで、それぞれのベースGemmaモデルを上回りました。
メトリック | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4択) | 89.8(best-of-5) 87.7(0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(テキストのみ) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(テキストのみ) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
すべてのMedGemma 27Bの結果では、パフォーマンスを向上させるためにテストタイムスケーリングが使用されています。
倫理と安全性の評価
評価アプローチ
私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間の評価メトリックを持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くのカテゴリに対して評価されました:
- 児童の安全: 児童の性的虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- コンテンツの安全性: ハラスメント、暴力と流血、ヘイトスピーチを含む安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- 表現的害: 偏見、ステレオタイプ、有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- 一般的な医療的害: 情報の品質や有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
開発レベルの評価に加えて、責任あるガバナンスの意思決定のために「保証評価」を実施しています。これらは、リリースに関する意思決定を通知するために、モデル開発チームとは別に実施されます。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは過剰適合を防ぎ、意思決定を通知する結果の能力を維持するために保持されます。注目すべき保証評価結果は、リリースレビューの一環として責任と安全評議会に報告されます。
評価結果
すべての安全テスト領域において、児童の安全、コンテンツの安全、表現的害のカテゴリで安全なレベルのパフォーマンスが見られました。すべてのテストは、モデルの能力と動作を評価するために安全フィルターなしで実施されました。テキストからテキスト、画像からテキスト、音声からテキストの両方で、両方のMedGemmaモデルサイズで、モデルは最小限のポリシー違反しか生成しませんでした。私たちの評価の制限は、主に英語のプロンプトを含んでいたことです。
データカード
データセットの概要
トレーニング
ベースのGemmaモデルは、大量のテキストとコードデータのコーパスで事前トレーニングされています。MedGemma 4Bは、放射線画像、組織病理学画像、眼科画像、皮膚科画像を含むさまざまな匿名化された医療データで特別に事前トレーニングされたSigLIP画像エンコーダーを利用しています。そのLLMコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科画像、皮膚科画像に関連する医療テキストを含む多様な医療データセットでトレーニングされています。
評価
MedGemmaモデルは、臨床的に関連する包括的なベンチマークセットで評価されました。これには、5つの異なるタスクと6つの医療画像モダリティにわたる22以上のデータセットが含まれます。これには、オープンベンチマークデータセットとキュレートされたデータセットの両方が含まれ、CXRレポート生成や放射線学VQAなどのタスクの専門家による人間の評価に焦点を当てています。
ソース
MedGemmaは、公開データセットと非公開データセットの組み合わせを利用しています。
このモデルは、MIMIC-CXR(胸部X線とレポート)、Slake-VQA(マルチモーダル医療画像と質問)、PAD-UFES-20(皮膚病変画像とデータ)、SCIN(皮膚科画像)、TCGA(がんゲノミクスデータ)、CAMELYON(リンパ節組織病理学画像)、PMC-OA(画像付き生物医学文献)、Mendeley Digital Knee X-Ray(膝X線)などの多様な公開データセットでトレーニングされました。
さらに、複数の多様な独自データセットがライセンスされ、組み込まれました(次に説明)。
データの所有権とドキュメント
- Mimic-CXR: MIT Laboratory for Computational Physiology and Beth Israel Deaconess Medical Center (BIDMC).
- Slake-VQA: The Hong Kong Polytechnic University (PolyU), with collaborators including West China Hospital of Sichuan University and Sichuan Academy of Medical Sciences / Sichuan Provincial People's Hospital.
- PAD-UFES-20: Federal University of Espírito Santo (UFES), Brazil, through its Dermatological and Surgical Assistance Program (PAD).
- SCIN: A collaboration between Google Health and Stanford Medicine.
- TCGA (The Cancer Genome Atlas): A joint effort of National Cancer Institute and National Human Genome Research Institute. Data from TCGA are available via the Genomic Data Commons (GDC)
- CAMELYON: The data was collected from Radboud University Medical Center and University Medical Center Utrecht in the Netherlands.
- PMC-OA (PubMed Central Open Access Subset): Maintained by the National Library of Medicine (NLM) and National Center for Biotechnology Information (NCBI), which are part of the NIH.
- MedQA: This dataset was created by a team of researchers led by Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits
- Mendeley Digital Knee X-Ray: This dataset is from Rani Channamma University, and is hosted on Mendeley Data.
- AfriMed-QA: This data was developed and led by multiple collaborating organizations and researchers include key contributors: Intron Health, SisonkeBiotik, BioRAMP, Georgia Institute of Technology, and MasakhaneNLP.
- VQA-RAD: This dataset was created by a research team led by Jason J. Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman and their affiliated institutions (the US National Library of Medicine and National Institutes of Health)
- MedExpQA: This dataset was created by researchers at the HiTZ Center (Basque Center for Language Technology and Artificial Intelligence).
- MedXpertQA: This dataset was developed by researchers at Tsinghua University (Beijing, China) and Shanghai Artificial Intelligence Laboratory (Shanghai, China).
上記の公開データセットに加えて、MedGemmaは、研究のためにライセンスされた匿名化されたデータセットまたはGoogle内の同意を得た参加者から収集されたデータセットでもトレーニングされました。
- 放射線学データセット1: 米国ベースの放射線学外来診断センターネットワークからのさまざまな身体部位のCT研究の匿名化されたデータセット。
- 眼科学データセット1: 糖尿病性網膜症スクリーニングからの眼底画像の匿名化されたデータセット。
- 皮膚科学データセット1: コロンビアからの遠隔皮膚科皮膚状態画像(臨床および皮膚鏡)の匿名化されたデータセット。
- 皮膚科学データセット2: オーストラリアからの皮膚がん画像(臨床および皮膚鏡)の匿名化されたデータセット。
- 皮膚科学データセット3: 内部データ収集活動からの非疾患皮膚画像の匿名化されたデータセット。
- 病理学データセット1: 欧州の学術研究病院とバイオバンクとの協力で作成された組織病理学H&E全スライド画像の匿名化されたデータセット。大腸、前立腺、リンパ節を含む。
- 病理学データセット2: 米国の商業バイオバンクによって作成された肺組織病理学H&EおよびIHC全スライド画像の匿名化されたデータセット。
- 病理学データセット3: 米国の契約研究機関によって作成された前立腺およびリンパ節H&EおよびIHC組織病理学全スライド画像の匿名化されたデータセット。
- 病理学データセット4: 米国の大規模な三次教育病院との協力で作成された組織病理学、主にH&E全スライド画像の匿名化されたデータセット。主にH&Eの多様な組織と染色タイプを含む。
データ引用
-
MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ and Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
-
SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021.SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
-
PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
-
SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
-
TCGA The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
-
CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
-
MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
-
Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
-
AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
-
VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
-
MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
-
MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
匿名化/匿名処理:
Googleとパートナーシップは、個々の研究参加者と患者のプライバシーを保護するために厳密に匿名化または匿名処理されたデータセットを利用しています。
実装情報
モデルの内部に関する詳細。
ソフトウェア
トレーニングはJAXを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模モデルのより高速で効率的なトレーニングが可能になります。
使用と制限
意図された使用法
MedGemmaは、医療テキストと画像を含む医療アプリケーションのより効率的な開発を可能にする出発点として使用されるオープンマルチモーダル生成AIモデルです。MedGemmaは、生命科学および医療分野の開発者を対象としています。開発者は、MedGemmaをトレーニング、適応、有意義に変更して、特定の意図された使用法を達成する責任があります。MedGemmaモデルは、開発者が独自の独自データを使用して特定のタスクやソリューションのためにファインチューニングできます。
MedGemmaはGemma 3をベースにしており、医療画像とテキストでさらにトレーニングされています。MedGemmaは、任意の医療コンテキスト(画像とテキスト)でのさらなる開発を可能にしますが、モデルは胸部X線、病理学、皮膚科学、眼底画像を使用して事前トレーニングされています。MedGemmaのトレーニング内のタスクの例には、放射線画像などの医療画像に関する視覚的質問応答や、テキスト医療質問への回答が含まれます。MedGemmaが評価されたすべてのタスクの詳細は、近日公開予定の技術レポートで確認できます。
利点
- そのサイズのモデルに対して強力なベースライン医療画像とテキスト理解を提供します。
- この強力なパフォーマンスにより、医療データ事前トレーニングなしの類似サイズのモデルと比較して、下流の医療ベースのユースケースに適応するのが効率的です。
- この適応には、ユースケース、ベースライン検証要件、および望ましいパフォーマンス特性に応じて、プロンプトエンジニアリング、グラウンディング、エージェントオーケストレーション、またはファインチューニングが含まれる場合があります。
制限
MedGemmaは、開発者が特定のユースケースのために適切な検証、適応、および/または有意義な変更を行わずに使用することを意図していません。MedGemmaによって生成された出力は、臨床診断、患者管理の決定、治療推奨、またはその他の直接的な臨床実践アプリケーションに直接情報を提供することを意図していません。パフォーマンスベンチマークは、関連するベンチマークでのベースライン能力を強調していますが、トレーニングデータの大部分を構成する画像とテキストドメインであっても、不正確なモデル出力が可能です。MedGemmaからのすべての出力は予備的なものと見なし、独立した検証、臨床的相関、および確立された研究開発方法論を通じたさらなる調査が必要です。
MedGemmaのマルチモーダル能力は、主に単一画像タスクで評価されています。MedGemmaは、複数の画像の理解を含むユースケースで評価または最適化されていません。
MedGemmaは、マルチターンアプリケーション向けに評価または最適化されていません。
MedGemmaのトレーニングにより、Gemma 3よりも使用される特定のプロンプトに対してより敏感になる可能性があります。
MedGemmaを適応する際に開発者は以下を考慮する必要があります:
- 検証データの偏り: あらゆる研究と同様に、開発者は、特定のアプリケーションの意図された使用設定(例: 年齢、性別、性別、状態、画像デバイスなど)に適切に代表されるデータを使用して、下流のアプリケーションを検証する必要があります。
- データ汚染の懸念: MedGemmaのような大規模モデルの医療コンテキストでの汎化能力を評価する際には、モデルが事前トレーニング中に関連する医療情報を誤って見てしまい、新しい医療概念への真の汎化能力を過大評価するリスクがあります。開発者は、公開されていないまたは非機関研究者に利用可能でないデータセットでMedGemmaを検証して、このリスクを軽減する必要があります。








