模型概述
模型特點
模型能力
使用案例
🚀 MedGemma模型卡片
MedGemma是基於Gemma 3開發的一系列模型變體,經過針對醫學文本和圖像理解的訓練,能助力開發者加速構建醫療AI應用。目前有4B多模態版本和27B純文本版本。
🚀 快速開始
安裝依賴庫
首先,安裝Transformers庫。從transformers 4.50.0版本開始支持Gemma 3。
$ pip install -U transformers
運行模型
使用pipeline
API運行模型
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接運行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主要特性
- 多模態支持:4B版本支持文本和視覺模態,27B版本僅支持文本模態。
- 長上下文支持:支持至少128K令牌的長上下文。
- 高性能表現:在多種醫學基準測試中表現出色,優於其基礎Gemma模型。
📦 安裝指南
安裝Transformers庫,Gemma 3從transformers 4.50.0版本開始支持。
$ pip install -U transformers
💻 使用示例
基礎用法
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
高級用法
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
📚 詳細文檔
模型信息
描述
MedGemma是基於Gemma 3的一系列變體,針對醫學文本和圖像理解進行了訓練。目前有4B多模態版本和27B純文本版本。MedGemma 27B僅在醫學文本上進行了訓練,並針對推理時間計算進行了優化。開發者可以對MedGemma變體進行微調以提高性能。
模型架構概述
MedGemma基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。更多架構信息請參考Gemma 3 模型卡片。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K令牌 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
輸入和輸出
輸入:
- 文本字符串,如問題或提示
- 總輸入長度為128K令牌
輸出:
- 對輸入的生成文本響應,如問題的答案、圖像內容分析或文檔摘要
- 總輸出長度為8192令牌
性能和驗證
MedGemma在多種不同的多模態分類、報告生成、視覺問答和基於文本的任務中進行了評估。
關鍵性能指標
文本評估
MedGemma 4B和僅文本的MedGemma 27B在一系列僅文本的醫學知識和推理基準測試中進行了評估。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA (4-op) | 89.8 (best-of-5) 87.7 (0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med (text only) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA (text only) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
對於所有MedGemma 27B結果,使用測試時間縮放來提高性能。
倫理和安全評估
評估方法
評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同團隊進行,每個團隊有不同的目標和人類評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 兒童安全:評估涵蓋兒童安全政策的文本到文本和圖像到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括偏見、刻板印象和有害關聯或不準確信息。
- 一般醫療危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括信息質量和有害關聯或不準確信息。
除了開發階段的評估,還進行“保證評估”,這是用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,以提供有關發佈的決策信息。高級別發現會反饋給模型團隊,但提示集會被保留以防止過擬合併保留結果為決策提供信息的能力。值得注意的保證評估結果會作為發佈審查的一部分報告給責任與安全委員會。
評估結果
在所有安全測試領域,在兒童安全、內容安全和代表性危害類別中都看到了安全水平的表現。所有測試均在沒有安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本、圖像到文本和音頻到文本,以及兩個MedGemma模型大小,模型產生的政策違規最少。評估的一個侷限性是主要包括英語提示。
數據卡片
數據集概述
訓練
基礎Gemma模型在大量文本和代碼數據語料庫上進行了預訓練。MedGemma 4B使用了一個SigLIP圖像編碼器,該編碼器專門在各種去識別的醫學數據上進行了預訓練,包括放射學圖像、組織病理學圖像、眼科圖像和皮膚病學圖像。其大語言模型組件在多樣化的醫學數據上進行了訓練,包括與放射學圖像、胸部X光、組織病理學切片、眼科圖像和皮膚病學圖像相關的醫學文本。
評估
MedGemma模型在一組全面的臨床相關基準測試中進行了評估,包括跨越5個不同任務和6種醫學圖像模態的22個以上數據集。這些包括開放基準數據集和精選數據集,重點是對胸部X光報告生成和放射學視覺問答等任務進行專家人工評估。
來源
MedGemma使用了公共和私有數據集的組合。該模型在多樣化的公共數據集上進行了訓練,包括MIMIC-CXR(胸部X光和報告)、Slake-VQA(多模態醫學圖像和問題)、PAD-UFES-20(皮膚病變圖像和數據)、SCIN(皮膚病學圖像)、TCGA(癌症基因組學數據)、CAMELYON(淋巴結組織病理學圖像)、PMC-OA(帶有圖像的生物醫學文獻)和Mendeley Digital Knee X-Ray(膝蓋X光)。此外,還許可並納入了多個不同的專有數據集。
數據所有權和文檔
- Mimic-CXR:麻省理工學院計算生理學實驗室和貝斯以色列女執事醫療中心(BIDMC)。
- Slake-VQA:香港理工大學(PolyU),與四川大學華西醫院和四川省醫學科學院/四川省人民醫院等合作。
- PAD-UFES-20:巴西聖埃斯皮裡圖聯邦大學(UFES),通過其皮膚科和外科援助計劃(PAD)。
- SCIN:谷歌健康與斯坦福醫學的合作項目。
- TCGA(癌症基因組圖譜):美國國家癌症研究所和國家人類基因組研究所的聯合項目。TCGA的數據可通過基因組數據中心(GDC)獲取。
- CAMELYON:數據來自荷蘭拉德堡德大學醫學中心和烏得勒支大學醫學中心。
- PMC-OA(PubMed Central開放獲取子集):由美國國立醫學圖書館(NLM)和國家生物技術信息中心(NCBI)維護,它們是美國國立衛生研究院的一部分。
- MedQA:該數據集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits領導的研究團隊創建。
- Mendeley Digital Knee X-Ray:該數據集來自拉尼錢納馬大學,並託管在Mendeley Data上。
- AfriMed-QA:該數據由多個合作組織和研究人員開發和領導,包括關鍵貢獻者:Intron Health、SisonkeBiotik、BioRAMP、佐治亞理工學院和MasakhaneNLP。
- VQA-RAD:該數據集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman領導的研究團隊及其附屬機構(美國國立醫學圖書館和美國國立衛生研究院)創建。
- MedExpQA:該數據集由HiTZ中心(巴斯克語言技術和人工智能中心)的研究人員創建。
- MedXpertQA:該數據集由清華大學(中國北京)和上海人工智能實驗室(中國上海)的研究人員開發。
此外,MedGemma還在為研究許可的去識別數據集或谷歌內部從同意參與的參與者收集的數據上進行了訓練。
- 放射學數據集1:來自美國放射學門診診斷中心網絡的不同身體部位CT研究的去識別數據集。
- 眼科數據集1:糖尿病視網膜病變篩查的眼底圖像去識別數據集。
- 皮膚病學數據集1:來自哥倫比亞的遠程皮膚病學皮膚狀況圖像(臨床和皮膚鏡檢查)的去識別數據集。
- 皮膚病學數據集2:來自澳大利亞的皮膚癌圖像(臨床和皮膚鏡檢查)的去識別數據集。
- 皮膚病學數據集3:內部數據收集工作中的非疾病皮膚圖像去識別數據集。
- 病理學數據集1:與歐洲一家學術研究醫院和生物樣本庫合作創建的組織病理學H&E全切片圖像去識別數據集。包括去識別的結腸、前列腺和淋巴結。
- 病理學數據集2:美國一家商業生物樣本庫創建的肺部組織病理學H&E和IHC全切片圖像去識別數據集。
- 病理學數據集3:美國一家合同研究組織創建的前列腺和淋巴結H&E和IHC組織病理學全切片圖像去識別數據集。
- 病理學數據集4:與美國一家大型三級教學醫院合作創建的組織病理學(主要是H&E全切片圖像)去識別數據集。包括多種不同的組織和染色類型,主要是H&E。
數據引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
去識別/匿名化
谷歌及其合作伙伴使用經過嚴格匿名化或去識別處理的數據集,以確保保護個體研究參與者和患者隱私。
實現信息
軟件
訓練使用JAX進行。JAX允許研究人員利用最新一代硬件(包括TPU),以更快、更高效地訓練大型模型。
使用和限制
預期用途
MedGemma是一個開放的多模態生成式AI模型,旨在作為起點,使涉及醫學文本和圖像的下游醫療應用能夠更高效地開發。MedGemma適用於生命科學和醫療領域的開發者。開發者負責對MedGemma進行訓練、調整和有意義的修改,以實現其特定的預期用途。開發者可以使用自己的專有數據對MedGemma模型進行微調,以用於其特定任務或解決方案。
優點
- 為同規模的模型提供強大的醫學圖像和文本理解基線。
- 與未進行醫學數據預訓練的類似規模模型相比,這種強大的性能使其能夠更高效地適應下游基於醫療的用例。
- 根據用例、基線驗證要求和期望的性能特徵,這種適應可能涉及提示工程、接地、代理編排或微調。
限制
MedGemma不打算在開發者未進行適當驗證、調整和/或進行有意義修改的情況下用於其特定用例。MedGemma生成的輸出不打算直接用於臨床診斷、患者管理決策、治療建議或任何其他直接臨床實踐應用。性能基準顯示了在相關基準上的基線能力,但即使對於構成大量訓練數據的圖像和文本領域,模型輸出也可能不準確。MedGemma的所有輸出都應被視為初步結果,需要通過既定的研發方法進行獨立驗證、臨床關聯和進一步調查。
MedGemma的多模態能力主要在單圖像任務上進行了評估。MedGemma尚未在涉及多圖像理解的用例中進行評估。
MedGemma尚未針對多輪應用進行評估或優化。
與Gemma 3相比,MedGemma的訓練可能使其對所使用的特定提示更加敏感。
開發者在調整MedGemma時應考慮以下幾點:
- 驗證數據中的偏差:與任何研究一樣,開發者應確保任何下游應用都經過驗證,以使用能夠適當代表特定應用預期使用環境的數據來了解性能(例如,年齡、性別、性別、病情、成像設備等)。
- 數據汙染問題:在醫學背景下評估像MedGemma這樣的大型模型的泛化能力時,存在數據汙染的風險,即模型可能在預訓練期間無意中看到了相關的醫學信息,從而可能高估了其對新醫學概念的真實泛化能力。開發者應在非公開可用或未提供給非機構研究人員的數據集上驗證MedGemma,以減輕這種風險。
🔧 技術細節
訓練使用JAX進行,JAX可利用TPU等硬件加速大模型訓練。
📄 許可證
MedGemma的使用受Health AI Developer Foundations使用條款的約束。
引用
技術報告即將發佈。在此期間,如果您使用此模型進行發佈,請引用Hugging Face模型頁面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
訪問MedGemma
要在Hugging Face上訪問MedGemma,您需要審查並同意Health AI Developer Foundation的使用條款。請確保您已登錄Hugging Face並點擊下方按鈕。請求將立即處理。 確認許可證
資源
- Google Cloud Model Garden上的模型:MedGemma
- Hugging Face上的模型:MedGemma
- GitHub倉庫(支持代碼、Colab筆記本、討論和問題):MedGemma
- 快速入門筆記本:GitHub
- 微調筆記本:GitHub
- 使用MedGemma構建的患者教育演示
- 支持:請參閱聯繫信息
作者
注意事項
⚠️ 重要提示
MedGemma生成的輸出不打算直接用於臨床診斷、患者管理決策、治療建議或任何其他直接臨床實踐應用。所有輸出都應被視為初步結果,需要通過既定的研發方法進行獨立驗證、臨床關聯和進一步調查。
💡 使用建議
開發者在使用MedGemma時,應進行適當的驗證、調整和有意義的修改,以適應特定的用例。同時,要注意驗證數據中的偏差和數據汙染問題。



