模型概述
模型特點
模型能力
使用案例
🚀 MedGemma模型
MedGemma是一系列基於Gemma 3的模型變體,針對醫學文本和圖像理解進行了訓練。開發者可以藉助MedGemma加速構建基於醫療保健的人工智能應用程序。
🚀 快速開始
本地運行模型
以下是一些示例代碼片段,可幫助你快速在GPU上本地運行該模型。如果你想大規模使用該模型,建議使用Model Garden創建生產版本。
首先,安裝Transformers庫。從transformers 4.50.0版本開始支持Gemma 3。
$ pip install -U transformers
使用pipeline
API運行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接運行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
使用示例
有關如何使用MedGemma的示例,請參閱以下Colab筆記本:
- 若要快速嘗試該模型,可使用Hugging Face的權重在本地運行,參見Colab中的快速入門筆記本。請注意,若要在不進行量化的情況下運行27B模型,你需要使用Colab Enterprise。
- 若要了解模型微調的示例,請參閱Colab中的微調筆記本。
✨ 主要特性
- 多模態能力:MedGemma 4B結合了文本和視覺模態,可處理醫學圖像和文本;MedGemma 27B專注於醫學文本處理。
- 高性能表現:在多種臨床相關基準測試中表現出色,優於基礎的Gemma 3模型。
- 可微調性:開發者可以使用自己的專有數據對MedGemma模型進行微調,以滿足特定任務或解決方案的需求。
📦 安裝指南
安裝Transformers庫,從transformers 4.50.0版本開始支持Gemma 3。
$ pip install -U transformers
📚 詳細文檔
模型信息
描述
MedGemma是一系列基於Gemma 3的變體,針對醫學文本和圖像理解進行了訓練。開發者可以使用MedGemma加速構建基於醫療保健的人工智能應用程序。目前,MedGemma有兩種變體:4B多模態版本和27B純文本版本。
MedGemma 4B使用了一個經過專門預訓練的SigLIP圖像編碼器,該編碼器在多種去識別化的醫學數據上進行了預訓練,包括胸部X光片、皮膚病學圖像、眼科圖像和組織病理學切片。其大語言模型(LLM)組件在多樣化的醫學數據上進行了訓練,包括放射學圖像、組織病理學切片、眼科圖像和皮膚病學圖像。
MedGemma 4B有預訓練(後綴:-pt
)和指令微調(後綴 -it
)兩個版本。對於大多數應用程序來說,指令微調版本是更好的起點。預訓練版本在MIMIC風格的胸部X光報告生成任務中表現更佳。
MedGemma 27B僅在醫學文本上進行了訓練,並針對推理時的計算進行了優化。MedGemma 27B僅作為指令微調模型提供。
MedGemma變體在一系列臨床相關基準測試中進行了評估,以展示其基線性能。這些基準測試包括開放基準數據集和精心策劃的數據集。開發者可以對MedGemma變體進行微調以提高性能。有關更多詳細信息,請參閱下面的預期用途部分。
完整的技術報告即將發佈。
模型架構概述
MedGemma模型基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。有關架構的更多信息,請參閱Gemma 3的模型卡片。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,參見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K個標記 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
輸入和輸出
輸入:
- 文本字符串,如問題或提示
- 圖像,歸一化為896 x 896分辨率,每個圖像編碼為256個標記
- 總輸入長度為128K個標記
輸出:
- 針對輸入生成的文本,如問題的答案、圖像內容的分析或文檔的摘要
- 總輸出長度為8192個標記
性能和驗證
MedGemma在多種不同的多模態分類、報告生成、視覺問答和基於文本的任務中進行了評估。
成像評估
MedGemma 4B的多模態性能在一系列基準測試中進行了評估,重點關注放射學、皮膚病學、組織病理學、眼科和多模態臨床推理。
在所有測試的多模態健康基準測試中,MedGemma 4B的表現均優於基礎的Gemma 3 4B模型。
任務和指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
醫學圖像分類 | ||
MIMIC CXR - 前5種病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5種病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 準確率 | 71.8 | 42.6 |
視覺問答 | ||
SlakeVQA(放射學) - 標記化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射學) - 標記化F1值 | 49.9 | 38.6 |
PathMCQA(組織病理學,內部***) - 準確率 | 69.8 | 37.1 |
知識和推理 | ||
MedXpertQA(文本 + 多模態問題) - 準確率 | 18.8 | 16.4 |
*基於參考文獻,每個示例以4選1的多項選擇題形式呈現,用於皮膚病症分類。
**在平衡分割上,參見參考文獻。
***基於多個數據集,每個示例以3 - 9選1的多項選擇題形式呈現,用於乳腺癌、宮頸癌和前列腺癌的識別、分級和亞型分類。
胸部X光報告生成
使用RadGraph F1指標,在MIMIC-CXR上評估了MedGemma胸部X光(CXR)報告生成的性能。我們將MedGemma預訓練檢查點與我們之前用於CXR報告生成的最佳模型PaliGemma 2進行了比較。
指標 | MedGemma 4B(預訓練) | PaliGemma 2 3B(針對CXR進行微調) | PaliGemma 2 10B(針對CXR進行微調) |
---|---|---|---|
胸部X光報告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
由於與MIMIC真實報告的報告風格存在差異,MedGemma 4B和Gemma 3 4B的指令微調版本得分較低(分別為0.22和0.12)。在MIMIC報告上進行進一步微調將使用戶能夠獲得更好的性能。
文本評估
在一系列純文本醫學知識和推理基準測試中,對MedGemma 4B和純文本MedGemma 27B進行了評估。
在所有測試的純文本健康基準測試中,MedGemma模型的表現均優於其各自的基礎Gemma模型。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4選1) | 89.8(最佳5選1) 87.7(零樣本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(純文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(文本 + 多模態問題) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
對於所有MedGemma 27B的結果,使用了測試時縮放來提高性能。
倫理和安全評估
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 兒童安全:評估涵蓋兒童安全政策的文本到文本和圖像到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括偏見、刻板印象以及有害關聯或不準確信息。
- 一般醫療危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括信息質量以及有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,以提供有關模型發佈的決策依據。高層級的評估結果會反饋給模型團隊,但提示集不會公開,以防止過擬合併確保評估結果能夠為決策提供有效信息。顯著的保證評估結果會作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,我們在兒童安全、內容安全和代表性危害等類別中都看到了安全水平的表現。所有測試均在沒有安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本、圖像到文本和音頻到文本,以及MedGemma的兩種模型規模,模型產生的政策違規情況極少。我們評估的一個侷限性是,評估主要包括英語提示。
數據卡片
數據集概述
訓練
基礎Gemma模型在大量的文本和代碼語料庫上進行了預訓練。MedGemma 4B使用了一個經過專門預訓練的SigLIP圖像編碼器,該編碼器在多種去識別化的醫學數據上進行了預訓練,包括放射學圖像、組織病理學圖像、眼科圖像和皮膚病學圖像。其大語言模型(LLM)組件在多樣化的醫學數據上進行了訓練,包括與放射學圖像、胸部X光片、組織病理學切片、眼科圖像和皮膚病學圖像相關的醫學文本。
評估
MedGemma模型在一組全面的臨床相關基準測試中進行了評估,包括跨越5個不同任務和6種醫學圖像模態的22個以上數據集。這些數據集包括開放基準數據集和精心策劃的數據集,重點是對胸部X光報告生成和放射學視覺問答等任務進行專家人工評估。
來源
MedGemma使用了公共數據集和私有數據集的組合。
該模型在多種公共數據集上進行了訓練,包括MIMIC-CXR(胸部X光片和報告)、Slake-VQA(多模態醫學圖像和問題)、PAD-UFES-20(皮膚病病變圖像和數據)、SCIN(皮膚病學圖像)、TCGA(癌症基因組學數據)、CAMELYON(淋巴結組織病理學圖像)、PMC-OA(帶有圖像的生物醫學文獻)和Mendeley Digital Knee X-Ray(膝蓋X光片)。
此外,還使用了多個不同的專有數據集,這些數據集已獲得許可並納入模型訓練(詳見下文)。
數據所有權和文檔
- Mimic-CXR:由麻省理工學院計算生理學實驗室和貝斯以色列女執事醫療中心(BIDMC)擁有。
- Slake-VQA:由香港理工大學(PolyU)擁有,與四川大學華西醫院和四川省醫學科學院/四川省人民醫院等合作。
- PAD-UFES-20:由巴西聖埃斯皮裡圖聯邦大學(UFES)通過其皮膚病學和外科援助計劃(PAD)擁有。
- SCIN:由Google Health和斯坦福大學醫學院合作擁有。
- TCGA(癌症基因組圖譜):由美國國家癌症研究所和國家人類基因組研究所共同努力創建。TCGA的數據可通過基因組數據公共庫(GDC)獲取。
- CAMELYON:數據由荷蘭拉德堡德大學醫學中心和烏得勒支大學醫學中心收集。
- PMC-OA(PubMed Central開放獲取子集):由美國國立醫學圖書館(NLM)和國家生物技術信息中心(NCBI)維護,它們是美國國立衛生研究院(NIH)的一部分。
- MedQA:該數據集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits領導的研究團隊創建。
- Mendeley Digital Knee X-Ray:該數據集來自拉尼·錢納馬大學,並託管在Mendeley Data上。
- AfriMed-QA:該數據由多個合作組織和研究人員開發和主導,包括關鍵貢獻者:Intron Health、SisonkeBiotik、BioRAMP、佐治亞理工學院和MasakhaneNLP。
- VQA-RAD:該數據集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman領導的研究團隊及其附屬機構(美國國家醫學圖書館和美國國立衛生研究院)創建。
- MedExpQA:該數據集由HiTZ中心(巴斯克語言技術和人工智能中心)的研究人員創建。
- MedXpertQA:該數據集由清華大學(中國北京)和上海人工智能實驗室(中國上海)的研究人員開發。
除了上述公共數據集外,MedGemma還在為研究目的而許可使用的去識別化數據集或Google內部從同意參與的參與者那裡收集的數據上進行了訓練。
- 放射學數據集1:來自美國一家放射學門診診斷中心網絡的不同身體部位CT研究的去識別化數據集。
- 眼科數據集1:來自糖尿病視網膜病變篩查的眼底圖像去識別化數據集。
- 皮膚病學數據集1:來自哥倫比亞的遠程皮膚病學皮膚病症圖像(臨床和皮膚鏡檢查)去識別化數據集。
- 皮膚病學數據集2:來自澳大利亞的皮膚癌圖像(臨床和皮膚鏡檢查)去識別化數據集。
- 皮膚病學數據集3:通過內部數據收集工作獲得的非疾病皮膚圖像去識別化數據集。
- 病理學數據集1:與歐洲一家學術研究醫院和生物樣本庫合作創建的組織病理學H&E全切片圖像去識別化數據集。包括去識別化的結腸、前列腺和淋巴結。
- 病理學數據集2:由美國一家商業生物樣本庫創建的肺部組織病理學H&E和IHC全切片圖像去識別化數據集。
- 病理學數據集3:由美國一家合同研究組織創建的前列腺和淋巴結H&E和IHC組織病理學全切片圖像去識別化數據集。
- 病理學數據集4:與美國一家大型三級教學醫院合作創建的主要為H&E全切片圖像的組織病理學去識別化數據集。包括多種組織和染色類型,主要是H&E。
數據引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
去識別化/匿名化
Google及其合作伙伴使用經過嚴格匿名化或去識別化處理的數據集,以確保保護個體研究參與者和患者的隱私。
實現信息
軟件
訓練使用了JAX。
JAX使研究人員能夠利用最新一代的硬件,包括張量處理單元(TPU),以更快、更高效地訓練大型模型。
🔧 技術細節
模型架構
MedGemma模型基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。
技術規格
- 模型類型:僅解碼器Transformer架構,參見Gemma 3技術報告
- 模態:4B版本支持文本和視覺模態;27B版本僅支持文本模態。
- 注意力機制:採用分組查詢注意力(GQA)
- 上下文長度:支持長上下文,至少128K個標記
📄 許可證
MedGemma的使用受Health AI Developer Foundations使用條款的約束。
若要在Hugging Face上訪問MedGemma,你需要審查並同意Health AI Developer Foundation的使用條款。請確保你已登錄Hugging Face,然後點擊下方按鈕。請求將立即處理。
引用
技術報告即將發佈。在此期間,如果你使用此模型進行發表,請引用Hugging Face模型頁面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
使用和限制
預期用途
MedGemma是一個開放的多模態生成式人工智能模型,旨在作為一個起點,使開發者能夠更高效地開發涉及醫學文本和圖像的下游醫療保健應用程序。MedGemma適用於生命科學和醫療保健領域的開發者。開發者負責對MedGemma進行訓練、調整和有意義的修改,以實現其特定的預期用途。開發者可以使用自己的專有數據對MedGemma模型進行微調,以滿足特定任務或解決方案的需求。
MedGemma基於Gemma 3構建,並在醫學圖像和文本上進行了進一步訓練。MedGemma可以在任何醫學環境(圖像和文本)中進行進一步開發,不過該模型是使用胸部X光片、病理學、皮膚病學和眼底圖像進行預訓練的。MedGemma訓練範圍內的任務示例包括針對醫學圖像(如X光片)的視覺問答,或回答文本醫學問題。所有MedGemma已評估任務的完整詳細信息可在即將發佈的技術報告中找到。
優勢
- 為同規模的模型提供強大的醫學圖像和文本理解基線。
- 與未進行醫學數據預訓練的類似規模模型相比,這種強大的性能使其能夠更高效地適應下游基於醫療保健的用例。
- 根據用例、基線驗證要求和所需的性能特徵,這種適應可能涉及提示工程、基礎模型調整、智能體編排或微調。
限制
在開發者未針對其特定用例進行適當驗證、調整和/或進行有意義的修改之前,MedGemma不應用於實際場景。MedGemma生成的輸出不應用於直接指導臨床診斷、患者管理決策、治療建議或任何其他直接臨床實踐應用。性能基準測試展示了模型在相關基準上的基線能力,但即使對於構成訓練數據很大一部分的圖像和文本領域,模型輸出也可能不準確。所有來自MedGemma的輸出都應被視為初步結果,需要通過既定的研究和開發方法進行獨立驗證、臨床相關性分析和進一步調查。
MedGemma的多模態能力主要在單圖像任務上進行了評估。該模型尚未在涉及多圖像理解的用例中進行評估。
MedGemma尚未在多輪對話應用中進行評估或優化。
與Gemma 3相比,MedGemma的訓練可能使其對所使用的特定提示更加敏感。
開發者在調整MedGemma時應考慮以下幾點:
- 驗證數據中的偏差:與任何研究一樣,開發者應確保任何下游應用都使用能夠適當代表特定應用預期使用場景的數據進行驗證(例如,年齡、性別、病症、成像設備等),以瞭解模型的性能。
- 數據汙染問題:在評估像MedGemma這樣的大型模型在醫學環境中的泛化能力時,存在數據汙染的風險,即模型可能在預訓練過程中無意中看到了相關的醫學信息,從而可能高估了其對新醫學概念的泛化能力。開發者應在未公開或未向非機構研究人員提供的數據集上對MedGemma進行驗證,以降低這種風險。








