模型概述
模型特點
模型能力
使用案例
🚀 MedGemma模型
MedGemma是基於Gemma 3開發的一系列模型變體,針對醫學文本和圖像理解進行了訓練。開發者可以利用MedGemma加速構建基於醫療保健的AI應用程序。
🚀 快速開始
要在Hugging Face上訪問MedGemma,你需要查看並同意Health AI Developer Foundation的使用條款。請確保你已登錄Hugging Face並點擊下方按鈕,請求將立即處理。
安裝依賴
首先,安裝Transformers庫。從transformers 4.50.0版本開始支持Gemma 3。
$ pip install -U transformers
運行模型
使用pipeline
API運行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
直接運行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主要特性
- 多模態處理能力:MedGemma 4B支持文本和視覺模態,能夠處理醫學圖像和文本信息;MedGemma 27B僅支持文本模態。
- 高性能表現:在多種醫學相關的基準測試中,MedGemma模型的表現優於其對應的基礎Gemma模型。
- 長上下文支持:支持至少128K個標記的長上下文。
📚 詳細文檔
模型架構概述
MedGemma模型基於Gemma 3構建,採用與Gemma 3相同的僅解碼器Transformer架構。有關架構的更多信息,請參考Gemma 3 模型卡片。
技術規格
屬性 | 詳情 |
---|---|
模型類型 | 僅解碼器Transformer架構,詳見Gemma 3技術報告 |
模態 | 4B:文本、視覺;27B:僅文本 |
注意力機制 | 採用分組查詢注意力(GQA) |
上下文長度 | 支持長上下文,至少128K個標記 |
關鍵出版物 | 即將發佈 |
模型創建時間 | 2025年5月20日 |
模型版本 | 1.0.0 |
輸入和輸出
輸入
- 文本字符串,如問題或提示。
- 圖像,歸一化為896 x 896分辨率,每個圖像編碼為256個標記。
- 總輸入長度為128K個標記。
輸出
- 針對輸入生成的文本,如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出長度為8192個標記。
性能和驗證
成像評估
MedGemma 4B的多模態性能在一系列基準測試中進行了評估,重點關注放射學、皮膚病學、組織病理學、眼科和多模態臨床推理。
任務和指標 | MedGemma 4B | Gemma 3 4B |
---|---|---|
醫學圖像分類 | ||
MIMIC CXR - 前5種病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5種病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 準確率 | 71.8 | 42.6 |
視覺問答 | ||
SlakeVQA(放射學) - 標記化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射學) - 標記化F1值 | 49.9 | 38.6 |
PathMCQA(組織病理學,內部***) - 準確率 | 69.8 | 37.1 |
知識和推理 | ||
MedXpertQA(文本 + 多模態問題) - 準確率 | 18.8 | 16.4 |
*詳情見Liu (2020, Nature medicine),以4選1的多項選擇題形式呈現,用於皮膚病症分類。 **基於“平衡分割”,詳情見Yang (2024, arXiv)。 ***基於多個數據集,以3 - 9選1的多項選擇題形式呈現,用於乳腺癌、宮頸癌和前列腺癌的識別、分級和亞型分類。
胸部X光報告生成
MedGemma的胸部X光(CXR)報告生成性能在MIMIC-CXR上使用RadGraph F1指標進行了評估。我們將MedGemma的預訓練檢查點與我們之前用於CXR報告生成的最佳模型PaliGemma 2進行了比較。
指標 | MedGemma 4B(預訓練) | PaliGemma 2 3B(針對CXR進行微調) | PaliGemma 2 10B(針對CXR進行微調) |
---|---|---|---|
胸部X光報告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
由於報告風格與MIMIC真實報告存在差異,MedGemma 4B和Gemma 3 4B的指令微調版本得分較低(分別為0.22和0.12)。在MIMIC報告上進行進一步微調將有助於用戶提高性能。
文本評估
MedGemma 4B和僅文本的MedGemma 27B在一系列僅文本的醫學知識和推理基準測試中進行了評估。
指標 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4選1) | 89.8(5選最佳) 87.7(零樣本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(僅文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(僅文本) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
對於所有MedGemma 27B的結果,使用了測試時縮放來提高性能。
倫理和安全評估
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 兒童安全:評估覆蓋兒童安全政策的文本到文本和圖像到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估覆蓋安全政策的文本到文本和圖像到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估覆蓋安全政策的文本到文本和圖像到文本提示,包括偏見、刻板印象以及有害關聯或不準確信息。
- 一般醫療危害:評估覆蓋安全政策的文本到文本和圖像到文本提示,包括信息質量和有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,以提供有關發佈的決策信息。高級別結果會反饋給模型團隊,但提示集將被保留,以防止過擬合併確保結果能夠為決策提供信息。顯著的保證評估結果將作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,我們在兒童安全、內容安全和代表性危害類別中都看到了安全水平的表現。所有測試均在沒有安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本、圖像到文本和音頻到文本,以及兩種MedGemma模型大小,模型產生的政策違規情況極少。我們評估的一個侷限性是,主要使用了英語提示。
🔧 技術細節
數據集概述
訓練
基礎Gemma模型在大量的文本和代碼數據語料庫上進行預訓練。MedGemma 4B使用了一個SigLIP圖像編碼器,該編碼器在各種去識別的醫學數據上進行了專門的預訓練,包括放射學圖像、組織病理學圖像、眼科圖像和皮膚病學圖像。其大語言模型(LLM)組件在多樣化的醫學數據上進行訓練,包括與放射學圖像、胸部X光、組織病理學切片、眼科圖像和皮膚病學圖像相關的醫學文本。
評估
MedGemma模型在一組全面的臨床相關基準測試中進行了評估,包括跨越5個不同任務和6種醫學圖像模態的22個以上數據集。這些數據集包括公開基準數據集和精選數據集,重點是對胸部X光報告生成和放射學視覺問答等任務進行專家人工評估。
來源
MedGemma使用了公共數據集和私有數據集的組合。
該模型在多樣化的公共數據集上進行訓練,包括MIMIC-CXR(胸部X光和報告)、Slake-VQA(多模態醫學圖像和問題)、PAD-UFES-20(皮膚病變圖像和數據)、SCIN(皮膚病學圖像)、TCGA(癌症基因組學數據)、CAMELYON(淋巴結組織病理學圖像)、PMC-OA(帶有圖像的生物醫學文獻)和Mendeley Digital Knee X-Ray(膝蓋X光)。
此外,還獲得了多個多樣化的專有數據集的許可並將其納入(詳見下文)。
數據所有權和文檔
- Mimic-CXR:麻省理工學院計算生理學實驗室和貝斯以色列女執事醫療中心(BIDMC)。
- Slake-VQA:香港理工大學(PolyU),與四川大學華西醫院和四川省醫學科學院/四川省人民醫院等合作。
- PAD-UFES-20:巴西聖埃斯皮裡圖聯邦大學(UFES),通過其皮膚科和外科援助計劃(PAD)提供。
- SCIN:谷歌健康與斯坦福醫學的合作項目。
- TCGA(癌症基因組圖譜):美國國家癌症研究所和國家人類基因組研究所的聯合項目。TCGA的數據可通過基因組數據公共庫(GDC)獲取。
- CAMELYON:數據來自荷蘭拉德堡德大學醫學中心和烏得勒支大學醫學中心。
- PMC-OA(PubMed Central開放獲取子集):由美國國家醫學圖書館(NLM)和國家生物技術信息中心(NCBI)維護,它們是美國國立衛生研究院的一部分。
- MedQA:該數據集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits領導的研究團隊創建。
- Mendeley Digital Knee X-Ray:該數據集來自拉尼·錢納馬大學,託管在Mendeley Data上。
- AfriMed-QA:該數據由多個合作組織和研究人員開發和領導,包括Intron Health、SisonkeBiotik、BioRAMP、佐治亞理工學院和MasakhaneNLP等主要貢獻者。
- VQA-RAD:該數據集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman領導的研究團隊及其附屬機構(美國國家醫學圖書館和美國國立衛生研究院)創建。
- MedExpQA:該數據集由HiTZ中心(巴斯克語言技術和人工智能中心)的研究人員創建。
- MedXpertQA:該數據集由清華大學(中國北京)和上海人工智能實驗室(中國上海)的研究人員開發。
除了上述公共數據集外,MedGemma還在為研究目的許可的去識別數據集或谷歌內部從同意參與的參與者收集的數據上進行訓練。
- 放射學數據集1:來自美國放射學門診診斷中心網絡的不同身體部位CT研究的去識別數據集。
- 眼科數據集1:糖尿病視網膜病變篩查的眼底圖像去識別數據集。
- 皮膚病學數據集1:來自哥倫比亞的遠程皮膚病學皮膚病症圖像(臨床和皮膚鏡檢查)去識別數據集。
- 皮膚病學數據集2:來自澳大利亞的皮膚癌圖像(臨床和皮膚鏡檢查)去識別數據集。
- 皮膚病學數據集3:內部數據收集工作中的非疾病皮膚圖像去識別數據集。
- 病理學數據集1:與歐洲一家學術研究醫院和生物樣本庫合作創建的組織病理學H&E全切片圖像去識別數據集,包括去識別的結腸、前列腺和淋巴結。
- 病理學數據集2:肺部組織病理學H&E去識別數據集。
📄 許可證
MedGemma的使用受Health AI Developer Foundations使用條款的約束。
引用
技術報告即將發佈。在此期間,如果你使用此模型進行發表,請引用Hugging Face模型頁面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}








