模型简介
模型特点
模型能力
使用案例
🚀 MedGemma模型
MedGemma是基于Gemma 3开发的一系列模型变体,针对医学文本和图像理解进行了训练。开发者可以利用MedGemma加速构建基于医疗保健的AI应用程序。
🚀 快速开始
要在Hugging Face上访问MedGemma,你需要查看并同意Health AI Developer Foundation的使用条款。请确保你已登录Hugging Face并点击下方按钮,请求将立即处理。
安装依赖
首先,安装Transformers库。从transformers 4.50.0版本开始支持Gemma 3。
$ pip install -U transformers
运行模型
使用pipeline
API运行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
直接运行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主要特性
- 多模态处理能力:MedGemma 4B支持文本和视觉模态,能够处理医学图像和文本信息;MedGemma 27B仅支持文本模态。
- 高性能表现:在多种医学相关的基准测试中,MedGemma模型的表现优于其对应的基础Gemma模型。
- 长上下文支持:支持至少128K个标记的长上下文。
📚 详细文档
模型架构概述
MedGemma模型基于Gemma 3构建,采用与Gemma 3相同的仅解码器Transformer架构。有关架构的更多信息,请参考Gemma 3 模型卡片。
技术规格
属性 | 详情 |
---|---|
模型类型 | 仅解码器Transformer架构,详见Gemma 3技术报告 |
模态 | 4B:文本、视觉;27B:仅文本 |
注意力机制 | 采用分组查询注意力(GQA) |
上下文长度 | 支持长上下文,至少128K个标记 |
关键出版物 | 即将发布 |
模型创建时间 | 2025年5月20日 |
模型版本 | 1.0.0 |
输入和输出
输入
- 文本字符串,如问题或提示。
- 图像,归一化为896 x 896分辨率,每个图像编码为256个标记。
- 总输入长度为128K个标记。
输出
- 针对输入生成的文本,如问题的答案、图像内容的分析或文档的摘要。
- 总输出长度为8192个标记。
性能和验证
成像评估
MedGemma 4B的多模态性能在一系列基准测试中进行了评估,重点关注放射学、皮肤病学、组织病理学、眼科和多模态临床推理。
任务和指标 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医学图像分类 | ||
MIMIC CXR - 前5种病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5种病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 准确率 | 71.8 | 42.6 |
视觉问答 | ||
SlakeVQA(放射学) - 标记化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射学) - 标记化F1值 | 49.9 | 38.6 |
PathMCQA(组织病理学,内部***) - 准确率 | 69.8 | 37.1 |
知识和推理 | ||
MedXpertQA(文本 + 多模态问题) - 准确率 | 18.8 | 16.4 |
*详情见Liu (2020, Nature medicine),以4选1的多项选择题形式呈现,用于皮肤病症分类。 **基于“平衡分割”,详情见Yang (2024, arXiv)。 ***基于多个数据集,以3 - 9选1的多项选择题形式呈现,用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类。
胸部X光报告生成
MedGemma的胸部X光(CXR)报告生成性能在MIMIC-CXR上使用RadGraph F1指标进行了评估。我们将MedGemma的预训练检查点与我们之前用于CXR报告生成的最佳模型PaliGemma 2进行了比较。
指标 | MedGemma 4B(预训练) | PaliGemma 2 3B(针对CXR进行微调) | PaliGemma 2 10B(针对CXR进行微调) |
---|---|---|---|
胸部X光报告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
由于报告风格与MIMIC真实报告存在差异,MedGemma 4B和Gemma 3 4B的指令微调版本得分较低(分别为0.22和0.12)。在MIMIC报告上进行进一步微调将有助于用户提高性能。
文本评估
MedGemma 4B和仅文本的MedGemma 27B在一系列仅文本的医学知识和推理基准测试中进行了评估。
指标 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4选1) | 89.8(5选最佳) 87.7(零样本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(仅文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(仅文本) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
对于所有MedGemma 27B的结果,使用了测试时缩放来提高性能。
伦理和安全评估
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估覆盖儿童安全政策的文本到文本和图像到文本提示,包括儿童性虐待和剥削。
- 内容安全:评估覆盖安全政策的文本到文本和图像到文本提示,包括骚扰、暴力和血腥内容以及仇恨言论。
- 代表性危害:评估覆盖安全政策的文本到文本和图像到文本提示,包括偏见、刻板印象以及有害关联或不准确信息。
- 一般医疗危害:评估覆盖安全政策的文本到文本和图像到文本提示,包括信息质量和有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们用于责任治理决策的“独立”内部评估。这些评估与模型开发团队分开进行,以提供有关发布的决策信息。高级别结果会反馈给模型团队,但提示集将被保留,以防止过拟合并确保结果能够为决策提供信息。显著的保证评估结果将作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,我们在儿童安全、内容安全和代表性危害类别中都看到了安全水平的表现。所有测试均在没有安全过滤器的情况下进行,以评估模型的能力和行为。对于文本到文本、图像到文本和音频到文本,以及两种MedGemma模型大小,模型产生的政策违规情况极少。我们评估的一个局限性是,主要使用了英语提示。
🔧 技术细节
数据集概述
训练
基础Gemma模型在大量的文本和代码数据语料库上进行预训练。MedGemma 4B使用了一个SigLIP图像编码器,该编码器在各种去识别的医学数据上进行了专门的预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤病学图像。其大语言模型(LLM)组件在多样化的医学数据上进行训练,包括与放射学图像、胸部X光、组织病理学切片、眼科图像和皮肤病学图像相关的医学文本。
评估
MedGemma模型在一组全面的临床相关基准测试中进行了评估,包括跨越5个不同任务和6种医学图像模态的22个以上数据集。这些数据集包括公开基准数据集和精选数据集,重点是对胸部X光报告生成和放射学视觉问答等任务进行专家人工评估。
来源
MedGemma使用了公共数据集和私有数据集的组合。
该模型在多样化的公共数据集上进行训练,包括MIMIC-CXR(胸部X光和报告)、Slake-VQA(多模态医学图像和问题)、PAD-UFES-20(皮肤病变图像和数据)、SCIN(皮肤病学图像)、TCGA(癌症基因组学数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带有图像的生物医学文献)和Mendeley Digital Knee X-Ray(膝盖X光)。
此外,还获得了多个多样化的专有数据集的许可并将其纳入(详见下文)。
数据所有权和文档
- Mimic-CXR:麻省理工学院计算生理学实验室和贝斯以色列女执事医疗中心(BIDMC)。
- Slake-VQA:香港理工大学(PolyU),与四川大学华西医院和四川省医学科学院/四川省人民医院等合作。
- PAD-UFES-20:巴西圣埃斯皮里图联邦大学(UFES),通过其皮肤科和外科援助计划(PAD)提供。
- SCIN:谷歌健康与斯坦福医学的合作项目。
- TCGA(癌症基因组图谱):美国国家癌症研究所和国家人类基因组研究所的联合项目。TCGA的数据可通过基因组数据公共库(GDC)获取。
- CAMELYON:数据来自荷兰拉德堡德大学医学中心和乌得勒支大学医学中心。
- PMC-OA(PubMed Central开放获取子集):由美国国家医学图书馆(NLM)和国家生物技术信息中心(NCBI)维护,它们是美国国立卫生研究院的一部分。
- MedQA:该数据集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits领导的研究团队创建。
- Mendeley Digital Knee X-Ray:该数据集来自拉尼·钱纳马大学,托管在Mendeley Data上。
- AfriMed-QA:该数据由多个合作组织和研究人员开发和领导,包括Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和MasakhaneNLP等主要贡献者。
- VQA-RAD:该数据集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman领导的研究团队及其附属机构(美国国家医学图书馆和美国国立卫生研究院)创建。
- MedExpQA:该数据集由HiTZ中心(巴斯克语言技术和人工智能中心)的研究人员创建。
- MedXpertQA:该数据集由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发。
除了上述公共数据集外,MedGemma还在为研究目的许可的去识别数据集或谷歌内部从同意参与的参与者收集的数据上进行训练。
- 放射学数据集1:来自美国放射学门诊诊断中心网络的不同身体部位CT研究的去识别数据集。
- 眼科数据集1:糖尿病视网膜病变筛查的眼底图像去识别数据集。
- 皮肤病学数据集1:来自哥伦比亚的远程皮肤病学皮肤病症图像(临床和皮肤镜检查)去识别数据集。
- 皮肤病学数据集2:来自澳大利亚的皮肤癌图像(临床和皮肤镜检查)去识别数据集。
- 皮肤病学数据集3:内部数据收集工作中的非疾病皮肤图像去识别数据集。
- 病理学数据集1:与欧洲一家学术研究医院和生物样本库合作创建的组织病理学H&E全切片图像去识别数据集,包括去识别的结肠、前列腺和淋巴结。
- 病理学数据集2:肺部组织病理学H&E去识别数据集。
📄 许可证
MedGemma的使用受Health AI Developer Foundations使用条款的约束。
引用
技术报告即将发布。在此期间,如果你使用此模型进行发表,请引用Hugging Face模型页面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}








