模型概述
模型特點
模型能力
使用案例
🚀 MedGemma模型
MedGemma是基於Gemma 3開發的多模態生成式AI模型,在醫學文本和圖像理解任務上表現出色。它有4B和27B兩個版本,能為醫療領域的開發者提供強大的基礎能力,加速下游醫療應用的開發。
🚀 快速開始
安裝依賴庫
首先,安裝Transformers庫。Gemma 3從transformers 4.50.0版本開始支持。
$ pip install -U transformers
運行模型
以下是一些示例代碼片段,幫助你在GPU上快速本地運行模型。如果你想大規模使用該模型,建議使用Model Garden創建生產版本。
使用pipeline
API運行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接運行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主要特性
- 多模態能力:MedGemma 4B支持文本和視覺模態,能夠處理醫學圖像和文本;MedGemma 27B僅支持文本模態。
- 高性能表現:在多個臨床相關基準測試中表現出色,優於基礎的Gemma 3模型。
- 可微調性:開發者可以使用自己的專有數據對MedGemma進行微調,以提高模型在特定任務上的性能。
- 推理優化:MedGemma 27B針對推理時間計算進行了優化,提高了推理效率。
📦 安裝指南
安裝Transformers庫,Gemma 3從transformers 4.50.0版本開始支持。
$ pip install -U transformers
💻 使用示例
基礎用法
上述快速開始部分的代碼示例展示瞭如何在本地GPU上運行模型。
高級用法
如果你想大規模使用該模型,建議使用Model Garden創建生產版本。
📚 詳細文檔
模型信息
描述
MedGemma是Gemma 3的變體集合,針對醫學文本和圖像理解進行了訓練。開發者可以使用MedGemma加速基於醫療的AI應用開發。目前,MedGemma有兩個變體:4B多模態版本和27B純文本版本。
MedGemma 4B使用了SigLIP圖像編碼器,該編碼器在多種去識別化的醫學數據上進行了預訓練,包括胸部X光片、皮膚科圖像、眼科圖像和組織病理學切片。其大語言模型(LLM)組件在多樣化的醫學數據上進行了訓練,包括放射學圖像、組織病理學切片、眼科圖像和皮膚科圖像。
MedGemma 4B有預訓練(後綴:-pt
)和指令調優(後綴 -it
)兩個版本。對於大多數應用來說,指令調優版本是更好的起點。預訓練版本適用於那些想更深入地對模型進行實驗的用戶。
MedGemma 27B僅在醫學文本上進行了訓練,並針對推理時間計算進行了優化。它僅以指令調優模型的形式提供。
MedGemma變體在一系列臨床相關的基準測試中進行了評估,以展示其基線性能。這些測試包括開放基準數據集和精選數據集。開發者可以對MedGemma變體進行微調,以提高其性能。有關更多詳細信息,請參閱下面的預期用途部分。
完整的技術報告將很快發佈。
示例
- 快速試用:若要快速試用模型,可使用Hugging Face的權重在本地運行,參見Colab中的快速入門筆記本。請注意,若要在不進行量化的情況下運行27B模型,需要使用Colab Enterprise。
- 模型微調示例:若要了解模型微調的示例,參見Colab中的微調筆記本。
模型架構概述
MedGemma模型基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。有關架構的更多信息,請參閱Gemma 3的模型卡片。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,參見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K個標記 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
引用
技術報告即將發佈。在此期間,如果你使用此模型進行發佈,請引用Hugging Face模型頁面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
輸入和輸出
輸入:
- 文本字符串,如問題或提示
- 圖像,歸一化為896 x 896分辨率,每個圖像編碼為256個標記
- 總輸入長度為128K個標記
輸出:
- 針對輸入生成的文本,如問題的答案、圖像內容的分析或文檔的摘要
- 總輸出長度為8192個標記
性能和驗證
MedGemma在一系列不同的多模態分類、報告生成、視覺問答和基於文本的任務中進行了評估。
關鍵性能指標
成像評估
MedGemma 4B的多模態性能在一系列基準測試中進行了評估,重點關注放射學、皮膚科、組織病理學、眼科和多模態臨床推理。
在所有測試的多模態健康基準測試中,MedGemma 4B的表現均優於基礎的Gemma 3 4B模型。
任務和指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
醫學圖像分類 | ||
MIMIC CXR - 前5種病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5種病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 準確率 | 71.8 | 42.6 |
視覺問答 | ||
SlakeVQA(放射學) - 標記化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射學) - 標記化F1值 | 49.9 | 38.6 |
PathMCQA(組織病理學,內部***) - 準確率 | 69.8 | 37.1 |
知識和推理 | ||
MedXpertQA(文本 + 多模態問題) - 準確率 | 18.8 | 16.4 |
*描述於Liu (2020, Nature medicine),每個示例以4項選擇題的形式呈現,用於皮膚病症分類。
**基於Yang (2024, arXiv)中描述的“平衡分割”。
***基於多個數據集,每個示例以3 - 9項選擇題的形式呈現,用於乳腺癌、宮頸癌和前列腺癌的識別、分級和亞型分類。
胸部X光報告生成
MedGemma的胸部X光(CXR)報告生成性能在MIMIC-CXR上使用RadGraph F1指標進行了評估。將MedGemma的預訓練檢查點與之前用於CXR報告生成的最佳模型PaliGemma 2進行了比較。
指標 | MedGemma 4B(預訓練) | PaliGemma 2 3B(針對CXR進行調優) | PaliGemma 2 10B(針對CXR進行調優) |
---|---|---|---|
胸部X光報告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
由於與MIMIC地面真值報告的報告風格存在差異,MedGemma 4B和Gemma 3 4B的指令調優版本得分較低(分別為0.22和0.12)。在MIMIC報告上進行進一步的微調將使用戶能夠獲得更好的性能。
文本評估
MedGemma 4B和僅文本的MedGemma 27B在一系列僅文本的醫學知識和推理基準測試中進行了評估。
在所有測試的僅文本健康基準測試中,MedGemma模型的表現均優於其各自的基礎Gemma模型。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4選項) | 89.8(5選最佳) 87.7(零樣本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(僅文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(僅文本) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
對於所有MedGemma 27B的結果,使用了測試時縮放來提高性能。
數據卡片
數據集概述
訓練
基礎的Gemma模型在大量的文本和代碼數據上進行了預訓練。MedGemma 4B使用了SigLIP圖像編碼器,該編碼器在多種去識別化的醫學數據上進行了專門的預訓練,包括放射學圖像、組織病理學圖像、眼科圖像和皮膚科圖像。其LLM組件在多樣化的醫學數據上進行了訓練,包括與放射學圖像、胸部X光片、組織病理學切片、眼科圖像和皮膚科圖像相關的醫學文本。
評估
MedGemma模型在一組全面的臨床相關基準測試中進行了評估,包括跨越5種不同任務和6種醫學圖像模態的22個以上的數據集。這些測試包括開放基準數據集和精選數據集,重點是對胸部X光報告生成和放射學視覺問答等任務進行專家人工評估。
來源
MedGemma使用了公共數據集和私有數據集的組合。
該模型在多樣化的公共數據集上進行了訓練,包括MIMIC-CXR(胸部X光片和報告)、Slake-VQA(多模態醫學圖像和問題)、PAD-UFES-20(皮膚病變圖像和數據)、SCIN(皮膚科圖像)、TCGA(癌症基因組學數據)、CAMELYON(淋巴結組織病理學圖像)、PMC-OA(帶有圖像的生物醫學文獻)和Mendeley Digital Knee X-Ray(膝蓋X光片)。
此外,還許可並納入了多個多樣化的專有數據集(如下所述)。
數據所有權和文檔
- Mimic-CXR:麻省理工學院計算生理學實驗室和貝斯以色列女執事醫療中心(BIDMC)。
- Slake-VQA:香港理工大學(PolyU),與包括四川大學華西醫院和四川省醫學科學院/四川省人民醫院在內的合作伙伴合作。
- PAD-UFES-20:巴西聖埃斯皮裡圖聯邦大學(UFES),通過其皮膚科和外科援助計劃(PAD)。
- SCIN:谷歌健康與斯坦福醫學的合作項目。
- TCGA(癌症基因組圖譜):美國國家癌症研究所和國家人類基因組研究所的聯合項目。TCGA的數據可通過基因組數據公共庫(GDC)獲取。
- CAMELYON:數據來自荷蘭的拉德堡德大學醫學中心和烏得勒支大學醫學中心。
- PMC-OA(PubMed Central開放獲取子集):由美國國立醫學圖書館(NLM)和國家生物技術信息中心(NCBI)維護,它們是美國國立衛生研究院(NIH)的一部分。
- MedQA:該數據集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits領導的研究團隊創建。
- Mendeley Digital Knee X-Ray:該數據集來自拉尼·錢納馬大學,並託管在Mendeley Data上。
- AfriMed-QA:該數據由多個合作組織和研究人員開發和領導,包括關鍵貢獻者:Intron Health、SisonkeBiotik、BioRAMP、佐治亞理工學院和MasakhaneNLP。
- VQA-RAD:該數據集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman領導的研究團隊及其附屬機構(美國國家醫學圖書館和美國國立衛生研究院)創建。
- MedExpQA:該數據集由HiTZ中心(巴斯克語言技術和人工智能中心)的研究人員創建。
- MedXpertQA:該數據集由清華大學(中國北京)和上海人工智能實驗室(中國上海)的研究人員開發。
除了上述公共數據集外,MedGemma還在為研究而許可的去識別化數據集或谷歌從同意參與的參與者那裡內部收集的數據上進行了訓練。
- 放射學數據集1:來自美國一家放射學門診診斷中心網絡的不同身體部位CT研究的去識別化數據集。
- 眼科數據集1:糖尿病視網膜病變篩查的眼底圖像去識別化數據集。
- 皮膚科數據集1:來自哥倫比亞的遠程皮膚科皮膚病症圖像(臨床和皮膚鏡檢查)去識別化數據集。
- 皮膚科數據集2:來自澳大利亞的皮膚癌圖像(臨床和皮膚鏡檢查)去識別化數據集。
- 皮膚科數據集3:內部數據收集工作中的非患病皮膚圖像去識別化數據集。
- 病理學數據集1:與歐洲一家學術研究醫院和生物樣本庫合作創建的組織病理學H&E全切片圖像去識別化數據集。包括去識別化的結腸、前列腺和淋巴結。
- 病理學數據集2:美國一家商業生物樣本庫創建的肺部組織病理學H&E和IHC全切片圖像去識別化數據集。
- 病理學數據集3:美國一家合同研究組織創建的前列腺和淋巴結H&E和IHC組織病理學全切片圖像去識別化數據集。
- 病理學數據集4:與美國一家大型三級教學醫院合作創建的組織病理學(主要是H&E全切片圖像)去識別化數據集。包括多樣化的組織和染色類型,主要是H&E。
數據引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ 以及 Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
- SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021. "SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
- PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
- SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
- TCGA The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
- CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
- MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
- Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
- VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
- MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
- MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
去識別化/匿名化
谷歌及其合作伙伴使用的數據集經過了嚴格的匿名化或去識別化處理,以確保保護個體研究參與者和患者的隱私。
實現信息
軟件
訓練使用了JAX。
JAX使研究人員能夠利用最新一代的硬件(包括TPU),以更快、更高效地訓練大型模型。
使用和限制
預期用途
MedGemma是一個開放的多模態生成式AI模型,旨在作為一個起點,使涉及醫學文本和圖像的下游醫療應用能夠更高效地開發。它適用於生命科學和醫療領域的開發者。開發者負責對MedGemma進行訓練、調整和進行有意義的修改,以實現其特定的預期用途。開發者可以使用自己的專有數據對MedGemma模型進行微調,以用於其特定的任務或解決方案。
MedGemma基於Gemma 3構建,並在醫學圖像和文本上進行了進一步的訓練。它可以在任何醫學背景(圖像和文本)下進行進一步的開發,不過該模型是使用胸部X光片、病理學、皮膚科和眼底圖像進行預訓練的。MedGemma訓練中的任務示例包括與醫學圖像(如X光片)相關的視覺問答,或回答文本醫學問題。有關MedGemma評估的所有任務的完整詳細信息,可在即將發佈的技術報告中找到。
優點
- 為同規模的模型提供了強大的基線醫學圖像和文本理解能力。
- 與未進行醫學數據預訓練的類似規模的模型相比,這種強大的性能使其能夠更高效地適應下游基於醫療的用例。
- 根據用例、基線驗證要求和所需的性能特徵,這種適應可能涉及提示工程、基礎化、代理編排或微調。
限制
MedGemma在未經開發者針對其特定用例進行適當驗證、調整和/或進行有意義的修改的情況下,不適合直接使用。MedGemma生成的輸出並非旨在直接為臨床診斷、患者管理決策、治療建議或任何其他直接臨床實踐應用提供信息。性能基準測試突出了在相關基準測試中的基線能力,但即使對於構成大量訓練數據的圖像和文本領域,模型輸出也可能不準確。MedGemma的所有輸出都應被視為初步結果,需要通過既定的研究和開發方法進行獨立驗證、臨床關聯和進一步調查。
MedGemma的多模態能力主要在單圖像任務上進行了評估。尚未在涉及多圖像理解的用例中對其進行評估。
尚未對MedGemma進行多輪應用的評估或優化。
與Gemma 3相比,MedGemma的訓練可能使其對所使用的特定提示更加敏感。
開發者在調整MedGemma時應考慮以下幾點:
- 驗證數據中的偏差:與任何研究一樣,開發者應確保任何下游應用都經過驗證,以使用能夠適當代表特定應用預期使用環境的數據(如年齡、性別、病症、成像設備等)來了解其性能。
- 數據汙染問題:在評估像MedGemma這樣的大型模型在醫學背景下的泛化能力時,存在數據汙染的風險,即模型可能在預訓練期間無意中看到了相關的醫學信息,從而可能高估了其對新醫學概念的真實泛化能力。開發者應在非公開可用或未提供給非機構研究人員的數據集上對MedGemma進行驗證,以降低這種風險。
🔧 技術細節
模型架構
MedGemma模型基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,參見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K個標記 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
📄 許可證
MedGemma的使用受Health AI Developer Foundations使用條款的約束。
⚠️ 重要提示
若要在Hugging Face上訪問MedGemma,需要審查並同意Health AI Developer Foundation的使用條款。為此,請確保已登錄Hugging Face並點擊下方按鈕。請求將立即處理。
💡 使用建議
- 若要快速試用模型,可使用Hugging Face的權重在本地運行,參見Colab中的快速入門筆記本。請注意,若要在不進行量化的情況下運行27B模型,需要使用Colab Enterprise。
- 若要了解模型微調的示例,參見Colab中的微調筆記本。
- 若要大規模使用該模型,建議使用Model Garden創建生產版本。








