MedGemma-4B-IT开源医学多模态模型 - 免费部署助力医学文本图像理解

首页

Medgemma 4b It

由 google 开发

MedGemma是基于Gemma 3优化的医学多模态模型系列，专为医学文本和图像理解设计，提供4B和27B两种参数规模版本。

图像生成文本

Transformers

开源协议:其他 #多模态医学分析 #临床推理优化 #高精度放射解读

下载量 15.36k

发布时间 : 5/19/2025

模型简介

MedGemma是一系列基于Gemma 3的变体，专为医学文本和图像理解优化，旨在加速医疗AI应用的开发。提供40亿参数的多模态版本和270亿参数的纯文本版本，支持放射学、皮肤病学等多种医学领域任务。

模型特点

多模态医学理解

结合SigLIP图像编码器和医学文本训练，支持胸部X光、皮肤病图像等多种医学影像分析。

临床优化性能

在放射学、皮肤病学等医学基准测试中显著超越基础模型，如MIMIC CXR病症识别F1达88.9。

长上下文支持

支持128K tokens的输入长度，适合处理长篇医学报告和复杂病例分析。

模型能力

医学图像分析

放射学报告生成

临床问答

皮肤病分类

病理切片解读

眼科图像理解

使用案例

医学影像诊断辅助

胸部X光分析

自动生成胸部X光片的异常描述和潜在病症提示

在MIMIC-CXR数据集上RadGraph F1得分29.5，与专用模型持平

患者教育

放射学报告解释

将专业放射报告转化为患者易懂的自然语言解释

演示应用可访问Hugging Face Spaces

🚀 MedGemma模型

MedGemma是基于Gemma 3开发的多模态生成式AI模型，在医学文本和图像理解任务上表现出色。它有4B和27B两个版本，能为医疗领域的开发者提供强大的基础能力，加速下游医疗应用的开发。

🚀 快速开始

安装依赖库

首先，安装Transformers库。Gemma 3从transformers 4.50.0版本开始支持。

$ pip install -U transformers

运行模型

以下是一些示例代码片段，帮助你在GPU上快速本地运行模型。如果你想大规模使用该模型，建议使用Model Garden创建生产版本。

使用`pipeline` API运行模型

from transformers import pipeline
from PIL import Image
import requests
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/medgemma-4b-it",
    torch_dtype=torch.bfloat16,
    device="cuda",
)

# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are an expert radiologist."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this X-ray"},
            {"type": "image", "image": image}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])

直接运行模型

# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch

model_id = "google/medgemma-4b-it"

model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are an expert radiologist."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this X-ray"},
            {"type": "image", "image": image}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

✨ 主要特性

多模态能力：MedGemma 4B支持文本和视觉模态，能够处理医学图像和文本；MedGemma 27B仅支持文本模态。
高性能表现：在多个临床相关基准测试中表现出色，优于基础的Gemma 3模型。
可微调性：开发者可以使用自己的专有数据对MedGemma进行微调，以提高模型在特定任务上的性能。
推理优化：MedGemma 27B针对推理时间计算进行了优化，提高了推理效率。

📦 安装指南

安装Transformers库，Gemma 3从transformers 4.50.0版本开始支持。

$ pip install -U transformers

💻 使用示例

基础用法

上述快速开始部分的代码示例展示了如何在本地GPU上运行模型。

高级用法

如果你想大规模使用该模型，建议使用Model Garden创建生产版本。

📚 详细文档

模型信息

描述

MedGemma是Gemma 3的变体集合，针对医学文本和图像理解进行了训练。开发者可以使用MedGemma加速基于医疗的AI应用开发。目前，MedGemma有两个变体：4B多模态版本和27B纯文本版本。

MedGemma 4B使用了SigLIP图像编码器，该编码器在多种去识别化的医学数据上进行了预训练，包括胸部X光片、皮肤科图像、眼科图像和组织病理学切片。其大语言模型（LLM）组件在多样化的医学数据上进行了训练，包括放射学图像、组织病理学切片、眼科图像和皮肤科图像。

MedGemma 4B有预训练（后缀：-pt）和指令调优（后缀 -it）两个版本。对于大多数应用来说，指令调优版本是更好的起点。预训练版本适用于那些想更深入地对模型进行实验的用户。

MedGemma 27B仅在医学文本上进行了训练，并针对推理时间计算进行了优化。它仅以指令调优模型的形式提供。

MedGemma变体在一系列临床相关的基准测试中进行了评估，以展示其基线性能。这些测试包括开放基准数据集和精选数据集。开发者可以对MedGemma变体进行微调，以提高其性能。有关更多详细信息，请参阅下面的预期用途部分。

完整的技术报告将很快发布。

示例

快速试用：若要快速试用模型，可使用Hugging Face的权重在本地运行，参见Colab中的快速入门笔记本。请注意，若要在不进行量化的情况下运行27B模型，需要使用Colab Enterprise。
模型微调示例：若要了解模型微调的示例，参见Colab中的微调笔记本。

模型架构概述

MedGemma模型基于Gemma 3构建，使用与Gemma 3相同的仅解码器Transformer架构。有关架构的更多信息，请参阅Gemma 3的模型卡片。

技术规格

属性	详情
模型类型	仅解码器Transformer架构，参见Gemma 3技术报告
模态	4B：文本、视觉；27B：仅文本
注意力机制	采用分组查询注意力（GQA）
上下文长度	支持长上下文，至少128K个标记
关键出版物	即将发布
模型创建时间	2025年5月20日
模型版本	1.0.0

引用

技术报告即将发布。在此期间，如果你使用此模型进行发布，请引用Hugging Face模型页面：

@misc{medgemma-hf,
    author = {Google},
    title = {MedGemma Hugging Face},
    howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
    year = {2025},
    note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}

输入和输出

输入：

文本字符串，如问题或提示
图像，归一化为896 x 896分辨率，每个图像编码为256个标记
总输入长度为128K个标记

输出：

针对输入生成的文本，如问题的答案、图像内容的分析或文档的摘要
总输出长度为8192个标记

性能和验证

MedGemma在一系列不同的多模态分类、报告生成、视觉问答和基于文本的任务中进行了评估。

关键性能指标

成像评估

MedGemma 4B的多模态性能在一系列基准测试中进行了评估，重点关注放射学、皮肤科、组织病理学、眼科和多模态临床推理。

在所有测试的多模态健康基准测试中，MedGemma 4B的表现均优于基础的Gemma 3 4B模型。

任务和指标	MedGemma 4B	Gemma 3 4B
医学图像分类
MIMIC CXR - 前5种病症的平均F1值	88.9	81.1
CheXpert CXR - 前5种病症的平均F1值	48.1	31.2
DermMCQA* - 准确率	71.8	42.6
视觉问答
SlakeVQA（放射学） - 标记化F1值	62.3	38.6
VQA-Rad**（放射学） - 标记化F1值	49.9	38.6
PathMCQA（组织病理学，内部***） - 准确率	69.8	37.1
知识和推理
MedXpertQA（文本 + 多模态问题） - 准确率	18.8	16.4

*描述于Liu (2020, Nature medicine)，每个示例以4项选择题的形式呈现，用于皮肤病症分类。

**基于Yang (2024, arXiv)中描述的“平衡分割”。

***基于多个数据集，每个示例以3 - 9项选择题的形式呈现，用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类。

胸部X光报告生成

MedGemma的胸部X光（CXR）报告生成性能在MIMIC-CXR上使用RadGraph F1指标进行了评估。将MedGemma的预训练检查点与之前用于CXR报告生成的最佳模型PaliGemma 2进行了比较。

指标	MedGemma 4B（预训练）	PaliGemma 2 3B（针对CXR进行调优）	PaliGemma 2 10B（针对CXR进行调优）
胸部X光报告生成
MIMIC CXR - RadGraph F1值	29.5	28.8	29.5

由于与MIMIC地面真值报告的报告风格存在差异，MedGemma 4B和Gemma 3 4B的指令调优版本得分较低（分别为0.22和0.12）。在MIMIC报告上进行进一步的微调将使用户能够获得更好的性能。

文本评估

MedGemma 4B和仅文本的MedGemma 27B在一系列仅文本的医学知识和推理基准测试中进行了评估。

在所有测试的仅文本健康基准测试中，MedGemma模型的表现均优于其各自的基础Gemma模型。

指标	MedGemma 27B	Gemma 3 27B	MedGemma 4B	Gemma 3 4B
MedQA（4选项）	89.8（5选最佳） 87.7（零样本）	74.9	64.4	50.7
MedMCQA	74.2	62.6	55.7	45.4
PubMedQA	76.8	73.4	73.4	68.4
MMLU Med（仅文本）	87.0	83.3	70.0	67.2
MedXpertQA（仅文本）	26.7	15.7	14.2	11.6
AfriMed-QA	84.0	72.0	52.0	48.0

对于所有MedGemma 27B的结果，使用了测试时缩放来提高性能。

数据卡片

数据集概述

训练

基础的Gemma模型在大量的文本和代码数据上进行了预训练。MedGemma 4B使用了SigLIP图像编码器，该编码器在多种去识别化的医学数据上进行了专门的预训练，包括放射学图像、组织病理学图像、眼科图像和皮肤科图像。其LLM组件在多样化的医学数据上进行了训练，包括与放射学图像、胸部X光片、组织病理学切片、眼科图像和皮肤科图像相关的医学文本。

评估

MedGemma模型在一组全面的临床相关基准测试中进行了评估，包括跨越5种不同任务和6种医学图像模态的22个以上的数据集。这些测试包括开放基准数据集和精选数据集，重点是对胸部X光报告生成和放射学视觉问答等任务进行专家人工评估。

来源

MedGemma使用了公共数据集和私有数据集的组合。

该模型在多样化的公共数据集上进行了训练，包括MIMIC-CXR（胸部X光片和报告）、Slake-VQA（多模态医学图像和问题）、PAD-UFES-20（皮肤病变图像和数据）、SCIN（皮肤科图像）、TCGA（癌症基因组学数据）、CAMELYON（淋巴结组织病理学图像）、PMC-OA（带有图像的生物医学文献）和Mendeley Digital Knee X-Ray（膝盖X光片）。

此外，还许可并纳入了多个多样化的专有数据集（如下所述）。

数据所有权和文档

Mimic-CXR：麻省理工学院计算生理学实验室和贝斯以色列女执事医疗中心（BIDMC）。
Slake-VQA：香港理工大学（PolyU），与包括四川大学华西医院和四川省医学科学院/四川省人民医院在内的合作伙伴合作。
PAD-UFES-20：巴西圣埃斯皮里图联邦大学（UFES），通过其皮肤科和外科援助计划（PAD）。
SCIN：谷歌健康与斯坦福医学的合作项目。
TCGA（癌症基因组图谱）：美国国家癌症研究所和国家人类基因组研究所的联合项目。TCGA的数据可通过基因组数据公共库（GDC）获取。
CAMELYON：数据来自荷兰的拉德堡德大学医学中心和乌得勒支大学医学中心。
PMC-OA（PubMed Central开放获取子集）：由美国国立医学图书馆（NLM）和国家生物技术信息中心（NCBI）维护，它们是美国国立卫生研究院（NIH）的一部分。
MedQA：该数据集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits领导的研究团队创建。
Mendeley Digital Knee X-Ray：该数据集来自拉尼·钱纳马大学，并托管在Mendeley Data上。
AfriMed-QA：该数据由多个合作组织和研究人员开发和领导，包括关键贡献者：Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和MasakhaneNLP。
VQA-RAD：该数据集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman领导的研究团队及其附属机构（美国国家医学图书馆和美国国立卫生研究院）创建。
MedExpQA：该数据集由HiTZ中心（巴斯克语言技术和人工智能中心）的研究人员创建。
MedXpertQA：该数据集由清华大学（中国北京）和上海人工智能实验室（中国上海）的研究人员开发。

除了上述公共数据集外，MedGemma还在为研究而许可的去识别化数据集或谷歌从同意参与的参与者那里内部收集的数据上进行了训练。

放射学数据集1：来自美国一家放射学门诊诊断中心网络的不同身体部位CT研究的去识别化数据集。
眼科数据集1：糖尿病视网膜病变筛查的眼底图像去识别化数据集。
皮肤科数据集1：来自哥伦比亚的远程皮肤科皮肤病症图像（临床和皮肤镜检查）去识别化数据集。
皮肤科数据集2：来自澳大利亚的皮肤癌图像（临床和皮肤镜检查）去识别化数据集。
皮肤科数据集3：内部数据收集工作中的非患病皮肤图像去识别化数据集。
病理学数据集1：与欧洲一家学术研究医院和生物样本库合作创建的组织病理学H&E全切片图像去识别化数据集。包括去识别化的结肠、前列腺和淋巴结。
病理学数据集2：美国一家商业生物样本库创建的肺部组织病理学H&E和IHC全切片图像去识别化数据集。
病理学数据集3：美国一家合同研究组织创建的前列腺和淋巴结H&E和IHC组织病理学全切片图像去识别化数据集。
病理学数据集4：与美国一家大型三级教学医院合作创建的组织病理学（主要是H&E全切片图像）去识别化数据集。包括多样化的组织和染色类型，主要是H&E。

数据引用

MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ 以及 Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021. "SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
TCGA The results shown here are in whole or part based upon data generated by the TCGA Research Network: https://www.cancer.gov/tcga.
CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.

去识别化/匿名化

谷歌及其合作伙伴使用的数据集经过了严格的匿名化或去识别化处理，以确保保护个体研究参与者和患者的隐私。

实现信息

软件

训练使用了JAX。

JAX使研究人员能够利用最新一代的硬件（包括TPU），以更快、更高效地训练大型模型。

使用和限制

预期用途

MedGemma是一个开放的多模态生成式AI模型，旨在作为一个起点，使涉及医学文本和图像的下游医疗应用能够更高效地开发。它适用于生命科学和医疗领域的开发者。开发者负责对MedGemma进行训练、调整和进行有意义的修改，以实现其特定的预期用途。开发者可以使用自己的专有数据对MedGemma模型进行微调，以用于其特定的任务或解决方案。

MedGemma基于Gemma 3构建，并在医学图像和文本上进行了进一步的训练。它可以在任何医学背景（图像和文本）下进行进一步的开发，不过该模型是使用胸部X光片、病理学、皮肤科和眼底图像进行预训练的。MedGemma训练中的任务示例包括与医学图像（如X光片）相关的视觉问答，或回答文本医学问题。有关MedGemma评估的所有任务的完整详细信息，可在即将发布的技术报告中找到。

优点

为同规模的模型提供了强大的基线医学图像和文本理解能力。
与未进行医学数据预训练的类似规模的模型相比，这种强大的性能使其能够更高效地适应下游基于医疗的用例。
根据用例、基线验证要求和所需的性能特征，这种适应可能涉及提示工程、基础化、代理编排或微调。

限制

MedGemma在未经开发者针对其特定用例进行适当验证、调整和/或进行有意义的修改的情况下，不适合直接使用。MedGemma生成的输出并非旨在直接为临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用提供信息。性能基准测试突出了在相关基准测试中的基线能力，但即使对于构成大量训练数据的图像和文本领域，模型输出也可能不准确。MedGemma的所有输出都应被视为初步结果，需要通过既定的研究和开发方法进行独立验证、临床关联和进一步调查。

MedGemma的多模态能力主要在单图像任务上进行了评估。尚未在涉及多图像理解的用例中对其进行评估。

尚未对MedGemma进行多轮应用的评估或优化。

与Gemma 3相比，MedGemma的训练可能使其对所使用的特定提示更加敏感。

开发者在调整MedGemma时应考虑以下几点：

验证数据中的偏差：与任何研究一样，开发者应确保任何下游应用都经过验证，以使用能够适当代表特定应用预期使用环境的数据（如年龄、性别、病症、成像设备等）来了解其性能。
数据污染问题：在评估像MedGemma这样的大型模型在医学背景下的泛化能力时，存在数据污染的风险，即模型可能在预训练期间无意中看到了相关的医学信息，从而可能高估了其对新医学概念的真实泛化能力。开发者应在非公开可用或未提供给非机构研究人员的数据集上对MedGemma进行验证，以降低这种风险。

🔧 技术细节

模型架构

MedGemma模型基于Gemma 3构建，使用与Gemma 3相同的仅解码器Transformer架构。

技术规格

属性	详情
模型类型	仅解码器Transformer架构，参见Gemma 3技术报告
模态	4B：文本、视觉；27B：仅文本
注意力机制	采用分组查询注意力（GQA）
上下文长度	支持长上下文，至少128K个标记
关键出版物	即将发布
模型创建时间	2025年5月20日
模型版本	1.0.0

📄 许可证

MedGemma的使用受Health AI Developer Foundations使用条款的约束。

⚠️ 重要提示

若要在Hugging Face上访问MedGemma，需要审查并同意Health AI Developer Foundation的使用条款。为此，请确保已登录Hugging Face并点击下方按钮。请求将立即处理。

💡 使用建议

若要快速试用模型，可使用Hugging Face的权重在本地运行，参见Colab中的快速入门笔记本。请注意，若要在不进行量化的情况下运行27B模型，需要使用Colab Enterprise。

若要了解模型微调的示例，参见Colab中的微调笔记本。

若要大规模使用该模型，建议使用Model Garden创建生产版本。