模型简介
模型特点
模型能力
使用案例
🚀 MedGemma模型卡片
MedGemma是一个基于医学图像和文本数据训练的多模态生成式AI模型,能够为医疗领域的开发者提供强大的基础能力,加速下游医疗应用的开发。
🚀 快速开始
若要在Hugging Face上访问MedGemma,你需要查看并同意Health AI Developer Foundation的使用条款。请确保你已登录Hugging Face,然后点击下方按钮。请求将立即处理。 确认许可
资源链接
- 模型文档:MedGemma
- Google Cloud Model Garden上的模型:MedGemma
- Hugging Face上的模型:MedGemma
- GitHub仓库:MedGemma
- 快速开始笔记本:GitHub
- 微调笔记本:GitHub
- 使用MedGemma构建的患者教育演示:Patient Education Demo
- 支持:请参阅联系我们
- 许可证:MedGemma的使用受Health AI Developer Foundations使用条款的约束。
✨ 主要特性
- 多模态能力:支持图像和文本输入,适用于多种医疗任务。
- 强大的医学理解:在医学图像分类、视觉问答等任务上表现出色。
- 可微调性:开发者可以使用自己的数据对模型进行微调。
📦 安装指南
首先,安装Transformers库。从transformers 4.50.0版本开始支持Gemma 3。
$ pip install -U transformers
💻 使用示例
基础用法
使用pipeline
API运行模型:
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
高级用法
直接运行模型:
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
更多示例
📚 详细文档
模型架构概述
MedGemma模型基于Gemma 3构建,采用与Gemma 3相同的仅解码器Transformer架构。更多架构信息,请参阅Gemma 3 模型卡片。
技术规格
属性 | 详情 |
---|---|
模型类型 | 仅解码器Transformer架构,详见Gemma 3技术报告 |
模态 | 4B:文本、视觉;27B:仅文本 |
注意力机制 | 采用分组查询注意力(GQA) |
上下文长度 | 支持长上下文,至少128K个令牌 |
关键出版物 | 即将发布 |
模型创建时间 | 2025年5月20日 |
模型版本 | 1.0.0 |
引用格式
技术报告即将发布。在此期间,如果你使用此模型进行发布,请引用Hugging Face模型页面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
输入和输出
输入:
- 文本字符串,如问题或提示
- 图像,归一化为896 x 896分辨率,每个图像编码为256个令牌
- 总输入长度为128K个令牌
输出:
- 对输入的生成文本响应,如问题的答案、图像内容分析或文档摘要
- 总输出长度为8192个令牌
性能和验证
MedGemma在多种多模态分类、报告生成、视觉问答和基于文本的任务中进行了评估。
成像评估
MedGemma 4B的多模态性能在多个基准测试中进行了评估,重点关注放射学、皮肤病学、组织病理学、眼科和多模态临床推理。
任务和指标 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医学图像分类 | ||
MIMIC CXR - 前5种病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5种病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 准确率 | 71.8 | 42.6 |
视觉问答 | ||
SlakeVQA(放射学) - 标记化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射学) - 标记化F1值 | 49.9 | 38.6 |
PathMCQA(组织病理学,内部***) - 准确率 | 69.8 | 37.1 |
知识和推理 | ||
MedXpertQA(文本 + 多模态问题) - 准确率 | 18.8 | 16.4 |
*详见Liu (2020, Nature medicine),以每个示例4选1的多项选择题形式呈现,用于皮肤病症分类。 **基于Yang (2024, arXiv)中描述的“平衡分割”。 ***基于多个数据集,以每个示例3 - 9选1的多项选择题形式呈现,用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类。
胸部X光报告生成
使用RadGraph F1指标在MIMIC-CXR上评估了MedGemma胸部X光(CXR)报告生成性能。我们将MedGemma预训练检查点与我们之前用于CXR报告生成的最佳模型PaliGemma 2进行了比较。
指标 | MedGemma 4B(预训练) | PaliGemma 2 3B(针对CXR进行微调) | PaliGemma 2 10B(针对CXR进行微调) |
---|---|---|---|
胸部X光报告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
MedGemma 4B和Gemma 3 4B的指令微调版本由于报告风格与MIMIC真实报告的差异,得分较低(分别为0.22和0.12)。在MIMIC报告上进行进一步微调将有助于用户提高性能。
文本评估
MedGemma 4B和仅文本的MedGemma 27B在多个仅文本的医学知识和推理基准测试中进行了评估。
指标 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4选项) | 89.8(5选最佳) 87.7(零样本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(仅文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(仅文本) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
对于所有MedGemma 27B结果,使用测试时缩放来提高性能。
伦理和安全评估
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估涵盖儿童安全政策的文本到文本和图像到文本提示,包括儿童性虐待和剥削。
- 内容安全:评估涵盖安全政策的文本到文本和图像到文本提示,包括骚扰、暴力和血腥内容以及仇恨言论。
- 代表性危害:评估涵盖安全政策的文本到文本和图像到文本提示,包括偏见、刻板印象以及有害关联或不准确信息。
- 一般医疗危害:评估涵盖安全政策的文本到文本和图像到文本提示,包括信息质量和有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们用于责任治理决策的“独立”内部评估。这些评估与模型开发团队分开进行,以提供有关发布的决策信息。高层评估结果会反馈给模型团队,但提示集将被保留,以防止过拟合并确保结果能够为决策提供信息。显著的保证评估结果将作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,我们在儿童安全、内容安全和代表性危害等类别中看到了安全水平的表现。所有测试均在没有安全过滤器的情况下进行,以评估模型的能力和行为。对于文本到文本、图像到文本和音频到文本,以及两种MedGemma模型大小,模型产生的政策违规极少。我们评估的一个局限性是,评估主要包括英语提示。
🔧 技术细节
数据集概述
训练
基础Gemma模型在大量文本和代码语料库上进行预训练。MedGemma 4B使用SigLIP图像编码器,该编码器在多种去识别医疗数据上进行了专门预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤病学图像。其大语言模型(LLM)组件在多样化的医疗数据上进行训练,包括与放射学图像、胸部X光、组织病理学切片、眼科图像和皮肤病学图像相关的医疗文本。
评估
MedGemma模型在一组全面的临床相关基准测试中进行了评估,包括5个不同任务和6种医学图像模态的22个以上数据集。这些数据集包括开放基准数据集和精选数据集,重点是对胸部X光报告生成和放射学视觉问答等任务进行专家人工评估。
来源
MedGemma使用了公共数据集和私有数据集的组合。
- 公共数据集:包括MIMIC-CXR(胸部X光和报告)、Slake-VQA(多模态医学图像和问题)、PAD-UFES-20(皮肤病变图像和数据)、SCIN(皮肤病学图像)、TCGA(癌症基因组学数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带有图像的生物医学文献)和Mendeley Digital Knee X-Ray(膝盖X光)。
- 私有数据集:还在为研究许可的去识别数据集或从同意参与的参与者处内部收集的数据集上进行了训练。
数据所有权和文档
数据集 | 所有权 |
---|---|
Mimic-CXR | MIT计算生理学实验室和贝斯以色列女执事医疗中心(BIDMC) |
Slake-VQA | 香港理工大学(PolyU),与四川大学华西医院和四川省医学科学院/四川省人民医院等合作 |
PAD-UFES-20 | 巴西圣埃斯皮里图联邦大学(UFES),通过其皮肤病和外科援助计划(PAD) |
SCIN | Google Health与斯坦福医学院的合作项目 |
TCGA | 美国国家癌症研究所和国家人类基因组研究所的联合项目,数据可通过基因组数据公共库(GDC)获取 |
CAMELYON | 荷兰拉德堡德大学医学中心和乌得勒支大学医学中心收集的数据 |
PMC-OA | 美国国立医学图书馆(NLM)和国家生物技术信息中心(NCBI)维护,它们是美国国立卫生研究院(NIH)的一部分 |
MedQA | 由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits领导的研究团队创建 |
Mendeley Digital Knee X-Ray | 来自拉尼·钱纳马大学,托管在Mendeley Data上 |
AfriMed-QA | 由多个合作组织和研究人员开发和领导,包括Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和MasakhaneNLP等关键贡献者 |
VQA-RAD | 由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman领导的研究团队创建,他们隶属于美国国家医学图书馆和美国国立卫生研究院 |
MedExpQA | 由HiTZ中心(巴斯克语言技术和人工智能中心)的研究人员创建 |
MedXpertQA | 由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发 |
数据引用
- MIMIC-CXR:Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/;Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
- SLAKE:Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021. "SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
- PAD-UEFS:Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
- SCIN:Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
- TCGA:The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
- CAMELYON16:Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
- MedQA:Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
- Mendeley Digital Knee X-Ray:Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfrimedQA:Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
- VQA-RAD:Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
- MedexpQA:Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
- MedXpertQA:Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
去识别/匿名化
Google及其合作伙伴使用经过严格匿名化或去识别处理的数据集,以确保保护个体研究参与者和患者的隐私。
软件实现
训练使用JAX进行。JAX允许研究人员利用最新一代的硬件,包括张量处理单元(TPU),以更快、更高效地训练大型模型。
📄 许可证
MedGemma的使用受Health AI Developer Foundations使用条款的约束。
🚧 使用和限制
预期用途
MedGemma是一个开放的多模态生成式AI模型,旨在作为一个起点,帮助开发者更高效地开发涉及医学文本和图像的下游医疗应用。该模型适用于生命科学和医疗领域的开发者。开发者负责对MedGemma进行训练、调整和有意义的修改,以实现其特定的预期用途。开发者可以使用自己的专有数据对MedGemma模型进行微调,以满足特定任务或解决方案的需求。
优势
- 强大的医学理解:为同规模的模型提供了强大的医学图像和文本理解能力。
- 高效的适应性:与未进行医学数据预训练的类似规模模型相比,更易于适应下游医疗用例。
- 灵活的调整方式:可以根据用例、基线验证要求和期望的性能特征,通过提示工程、接地、代理编排或微调等方式进行调整。
局限性
- 需适当验证和调整:MedGemma不能在未经开发者针对特定用例进行适当验证、调整和/或有意义修改的情况下直接使用。
- 不用于直接临床应用:MedGemma生成的输出不旨在直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。
- 可能存在不准确输出:尽管性能基准显示了模型在相关基准测试中的基线能力,但即使在构成大量训练数据的图像和文本领域,也可能出现不准确的模型输出。
- 多图像和多轮应用未评估:MedGemma的多模态能力主要在单图像任务中进行了评估,未在涉及多图像理解的用例中进行评估,也未针对多轮应用进行评估。
- 对提示更敏感:与Gemma 3相比,MedGemma的训练可能使其对所使用的特定提示更加敏感。
开发者注意事项
- 验证数据的偏差:开发者应确保任何下游应用使用的数据能够适当代表特定应用的预期使用场景(如年龄、性别、病症、成像设备等),以了解模型的性能。
- 数据污染风险:在评估MedGemma等大型模型在医疗环境中的泛化能力时,存在数据污染的风险,即模型可能在预训练期间无意中看到相关医疗信息,从而高估其对新医学概念的泛化能力。开发者应在未公开或未提供给非机构研究人员的数据集上验证MedGemma,以降低这种风险。








