模型概述
模型特點
模型能力
使用案例
🚀 MedGemma模型
MedGemma是一系列基於Gemma 3的變體模型,經專門訓練以提升在醫學文本和圖像理解方面的性能。開發者可藉助該模型加速構建基於醫療領域的人工智能應用。
🚀 快速開始
以下是一些示例代碼片段,可幫助你在GPU上快速本地運行該模型。如果你想大規模使用該模型,建議你使用Model Garden創建一個生產版本。
首先,安裝Transformers庫。從transformers 4.50.0版本開始支持Gemma 3。
$ pip install -U transformers
使用pipeline
API運行模型
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接運行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主要特性
- 多模態能力:有4B多模態版本和27B純文本版本,可處理醫學文本和圖像理解任務。
- 高性能表現:在多個醫學基準測試中表現出色,優於對應的基礎Gemma模型。
- 可微調性:開發者可使用自己的專有數據對模型進行微調,以適應特定任務。
📦 安裝指南
首先,安裝Transformers庫。Gemma 3從transformers 4.50.0版本開始支持。
$ pip install -U transformers
💻 使用示例
基礎用法
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
高級用法
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are a helpful medical assistant."
},
{
"role": "user",
"content": "How do you differentiate bacterial from viral pneumonia?"
}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
📚 詳細文檔
模型信息
描述
MedGemma是一系列基於Gemma 3的變體模型,針對醫學文本和圖像理解性能進行了訓練。開發者可使用MedGemma加速構建基於醫療領域的人工智能應用。目前,MedGemma有兩個版本:4B多模態版本和27B純文本版本。
MedGemma 27B僅在醫學文本上進行訓練,並針對推理時的計算進行了優化。它僅作為指令微調模型提供。
MedGemma變體已在一系列臨床相關基準測試中進行評估,以展示其基線性能。這些測試包括開放基準數據集和精選數據集。開發者可對MedGemma變體進行微調以提高性能。有關更多詳細信息,請參閱“預期用途”部分。
完整的技術報告即將發佈。
如何使用
見“快速開始”部分的示例代碼。
示例
- 若要快速嘗試該模型,可在本地運行,使用來自Hugging Face的權重,請參閱Colab中的快速入門筆記本。請注意,若要在不進行量化的情況下運行27B模型,你需要使用Colab Enterprise。
- 若要了解模型微調的示例,請參閱Colab中的微調筆記本。
模型架構概述
MedGemma模型基於Gemma 3構建,使用與Gemma 3相同的僅解碼器Transformer架構。有關架構的更多信息,請參閱Gemma 3 模型卡片。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K個標記 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
引用
技術報告即將發佈。在此期間,如果你使用該模型進行發佈,請引用Hugging Face模型頁面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
輸入和輸出
輸入:
- 文本字符串,如問題或提示
- 總輸入長度為128K個標記
輸出:
- 針對輸入生成的文本,如問題的答案、圖像內容分析或文檔摘要
- 總輸出長度為8192個標記
性能和驗證
MedGemma在一系列不同的多模態分類、報告生成、視覺問答和基於文本的任務中進行了評估。
關鍵性能指標
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA (4-op) | 89.8 (best-of-5) 87.7 (0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med (text only) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA (text only) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
對於所有MedGemma 27B結果,使用測試時縮放來提高性能。
倫理和安全評估
評估方法
評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同團隊進行,每個團隊有不同的目標和人類評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估,包括:
- 兒童安全:評估涵蓋兒童安全政策的文本到文本和圖像到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括偏見、刻板印象以及有害關聯或不準確信息。
- 一般醫療危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括信息質量和有害關聯或不準確信息。
除了開發階段的評估,還進行“保證評估”,這是用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,以提供有關發佈的決策信息。高級別發現會反饋給模型團隊,但提示集將被保留,以防止過擬合併保持結果為決策提供信息的能力。顯著的保證評估結果將作為發佈審查的一部分報告給責任與安全委員會。
評估結果
在所有安全測試領域,在兒童安全、內容安全和代表性危害類別中均看到安全水平的性能。所有測試均在沒有安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本、圖像到文本和音頻到文本,以及兩種MedGemma模型大小,模型產生的政策違規最少。評估的一個侷限性是,它們主要包括英語提示。
數據卡片
數據集概述
訓練
基礎Gemma模型在大量文本和代碼數據語料庫上進行預訓練。MedGemma 4B使用了一個SigLIP圖像編碼器,該編碼器專門在各種去識別的醫學數據上進行了預訓練,包括放射學圖像、組織病理學圖像、眼科圖像和皮膚病學圖像。其大語言模型(LLM)組件在多樣化的醫學數據上進行訓練,包括與放射學圖像、胸部X光、組織病理學切片、眼科圖像和皮膚病學圖像相關的醫學文本。
評估
MedGemma模型在一組全面的臨床相關基準測試中進行了評估,包括跨越5個不同任務和6種醫學圖像模態的22個以上數據集。這些數據集包括開放基準數據集和精選數據集,重點是對胸部X光報告生成和放射學視覺問答等任務進行專家人工評估。
來源
MedGemma使用了公共和私有數據集的組合。
該模型在多樣化的公共數據集上進行訓練,包括MIMIC-CXR(胸部X光和報告)、Slake-VQA(多模態醫學圖像和問題)、PAD-UFES-20(皮膚病變圖像和數據)、SCIN(皮膚病學圖像)、TCGA(癌症基因組學數據)、CAMELYON(淋巴結組織病理學圖像)、PMC-OA(帶有圖像的生物醫學文獻)和Mendeley Digital Knee X-Ray(膝蓋X光)。
此外,還許可並納入了多個不同的專有數據集(如下所述)。
數據所有權和文檔
- Mimic-CXR:麻省理工學院計算生理學實驗室和貝斯以色列女執事醫療中心(BIDMC)。
- Slake-VQA:香港理工大學(PolyU),與四川大學華西醫院和四川省醫學科學院/四川省人民醫院等合作。
- PAD-UFES-20:巴西聖埃斯皮裡圖聯邦大學(UFES),通過其皮膚病和外科援助計劃(PAD)。
- SCIN:谷歌健康與斯坦福醫學的合作項目。
- TCGA(癌症基因組圖譜):美國國家癌症研究所和國家人類基因組研究所的聯合項目。TCGA的數據可通過基因組數據中心(GDC)獲取。
- CAMELYON:數據來自荷蘭拉德堡德大學醫學中心和烏得勒支大學醫學中心。
- PMC-OA(PubMed Central開放獲取子集):由美國國立醫學圖書館(NLM)和國家生物技術信息中心(NCBI)維護,它們是美國國立衛生研究院的一部分。
- MedQA:該數據集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits領導的研究團隊創建。
- Mendeley Digital Knee X-Ray:該數據集來自拉尼·錢納馬大學,託管在Mendeley Data上。
- AfriMed-QA:該數據由多個合作組織和研究人員開發和領導,包括關鍵貢獻者:Intron Health、SisonkeBiotik、BioRAMP、佐治亞理工學院和MasakhaneNLP。
- VQA-RAD:該數據集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman領導的研究團隊創建,他們隸屬於美國國立醫學圖書館和美國國立衛生研究院。
- MedExpQA:該數據集由HiTZ中心(巴斯克語言技術和人工智能中心)的研究人員創建。
- MedXpertQA:該數據集由清華大學(中國北京)和上海人工智能實驗室(中國上海)的研究人員開發。
除了上述公共數據集外,MedGemma還在為研究許可的去識別數據集或從同意參與的參與者處內部收集的數據集上進行訓練。
- 放射學數據集1:來自美國放射學門診診斷中心網絡的不同身體部位CT研究的去識別數據集。
- 眼科數據集1:糖尿病視網膜病變篩查的眼底圖像去識別數據集。
- 皮膚病學數據集1:來自哥倫比亞的遠程皮膚病學皮膚狀況圖像(臨床和皮膚鏡檢查)的去識別數據集。
- 皮膚病學數據集2:來自澳大利亞的皮膚癌圖像(臨床和皮膚鏡檢查)的去識別數據集。
- 皮膚病學數據集3:內部數據收集工作中的非疾病皮膚圖像的去識別數據集。
- 病理學數據集1:與歐洲一家學術研究醫院和生物樣本庫合作創建的組織病理學H&E全切片圖像的去識別數據集。包括去識別的結腸、前列腺和淋巴結。
- 病理學數據集2:美國一家商業生物樣本庫創建的肺部組織病理學H&E和IHC全切片圖像的去識別數據集。
- 病理學數據集3:美國一家合同研究組織創建的前列腺和淋巴結H&E和IHC組織病理學全切片圖像的去識別數據集。
- 病理學數據集4:與美國一家大型三級教學醫院合作創建的組織病理學(主要是H&E全切片圖像)的去識別數據集。包括各種組織和染色類型,主要是H&E。
數據引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ 以及 Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
- SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021.SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
- PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
- SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
- TCGA The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
- CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
- MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
- Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
- VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
- MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
- MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
去識別/匿名化
谷歌及其合作伙伴使用經過嚴格匿名化或去識別處理的數據集,以確保保護個體研究參與者和患者隱私。
實現信息
軟件
訓練使用JAX進行。
JAX允許研究人員利用最新一代硬件(包括TPU),以更快、更高效地訓練大型模型。
使用和限制
預期用途
MedGemma是一個開放的多模態生成式人工智能模型,旨在作為一個起點,使涉及醫學文本和圖像的下游醫療應用能夠更高效地開發。MedGemma適用於生命科學和醫療領域的開發者。開發者負責對MedGemma進行訓練、調整和有意義的修改,以實現其特定的預期用途。開發者可以使用自己的專有數據對MedGemma模型進行微調,以用於特定任務或解決方案。
MedGemma基於Gemma 3,並在醫學圖像和文本上進行了進一步訓練。它可以在任何醫學背景(圖像和文本)下進行進一步開發,不過該模型是使用胸部X光、病理學、皮膚病學和眼底圖像進行預訓練的。MedGemma訓練範圍內的任務示例包括與醫學圖像(如X光片)相關的視覺問答,或回答文本醫學問題。所有MedGemma已評估任務的完整詳細信息可在即將發佈的技術報告中找到。
好處
- 為同規模的模型提供強大的基線醫學圖像和文本理解能力。
- 與未進行醫學數據預訓練的類似規模模型相比,這種強大的性能使其能夠更高效地適應下游醫療用例。
- 根據用例、基線驗證要求和期望的性能特徵,這種適應可能涉及提示工程、基礎化、代理編排或微調。
限制
MedGemma不適合在未經開發者針對其特定用例進行適當驗證、調整和/或有意義修改的情況下使用。MedGemma生成的輸出不旨在直接為臨床診斷、患者管理決策、治療建議或任何其他直接臨床實踐應用提供信息。性能基準顯示了在相關基準上的基線能力,但即使對於構成大量訓練數據的圖像和文本領域,模型輸出也可能不準確。MedGemma的所有輸出都應被視為初步的,需要通過既定的研發方法進行獨立驗證、臨床關聯和進一步調查。
MedGemma的多模態能力主要在單圖像任務上進行了評估。它尚未在涉及多圖像理解的用例中進行評估。
MedGemma尚未在多輪應用中進行評估或優化。
與Gemma 3相比,MedGemma的訓練可能使其對所使用的特定提示更加敏感。
開發者在調整MedGemma時應考慮以下幾點:
- 驗證數據中的偏差:與任何研究一樣,開發者應確保任何下游應用使用的數據能夠適當代表特定應用的預期使用環境(如年齡、性別、病症、成像設備等),以驗證其性能。
- 數據汙染問題:在醫學背景下評估像MedGemma這樣的大型模型的泛化能力時,存在數據汙染的風險,即模型可能在預訓練期間無意中看到相關醫學信息,從而可能高估其對新醫學概念的泛化能力。開發者應在非公開可用或未提供給非機構研究人員的數據集上驗證MedGemma,以降低這種風險。
📄 許可證
MedGemma的使用受Health AI Developer Foundations使用條款的約束。



