🚀 CXR Foundation模型卡
CXR Foundation是一个专为加速胸部X光图像分析的AI开发而设计的机器学习模型。它通过对大量胸部X光图像进行预训练,生成能够捕捉图像特征的嵌入向量,从而实现用更少的数据和计算资源高效训练AI模型。
🚀 快速开始
若要快速在Hugging Face上开始使用,请参考 快速入门笔记本。
若要大规模使用该模型,建议通过 Model Garden 创建生产版本。
✨ 主要特性
- 高效训练:基于大量胸部X光图像预训练,生成的嵌入向量可使AI模型训练所需的数据和计算资源显著减少。
- 两种嵌入类型:
- ELIXR v2.0:生成32x768维向量,捕捉与X光分析相关的详细图像特征。
- ELIXR-contrastive / v2.0 text:生成32x128维向量,可将胸部X光图像和文本提示投影到共享嵌入空间,支持语义图像检索和零样本分类等强大应用。
- 多任务支持:可用于数据高效分类、零样本分类、语义图像检索、视觉问答和报告质量保证等多种任务。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
若要快速尝试该模型,可使用Hugging Face的权重在本地运行,参考 Colab中的快速入门笔记本。
高级用法
📚 详细文档
模型信息
描述
CXR Foundation通过对大量胸部X光图像进行预训练,生成的嵌入向量能捕捉与图像分析相关的密集特征。与传统方法相比,这些嵌入向量可使AI模型在训练时使用更少的数据和计算资源。
模型架构概述
该模型采用 EfficientNet-L2架构 和 BERT架构。使用来自美国和印度的821,544张胸部X光图像进行训练,标签为异常与正常(即图像是否包含任何异常),采用 监督对比损失 以及相关放射学报告、CLIP损失 和 BLIP-2损失。异常与正常标签从更细粒度的标签(如气胸、骨折)以及 放射学报告的正则表达式 中获得。
技术规格
性能和验证
CXR Foundation在数据高效分类、零样本分类、语义图像检索、视觉问答和报告质量保证等一系列不同任务中进行了评估。
关键性能指标
- 数据高效分类:在CheXPert测试中,对肺不张、心脏扩大、实变、胸腔积液和肺水肿的平均AUC为0.898。
- 零样本分类:在CheXpert测试中,对13种病症的平均AUC为0.846,包括肺不张、心脏扩大、实变、胸腔积液、肺水肿、心纵隔增宽、其他胸腔疾病、气胸、支持设备、肺野模糊、肺部病变、肺炎和骨折。
- 语义图像检索:在19个语义图像检索查询中,归一化折损累积增益(NDCG)@5为0.76,其中12个查询实现了完美检索。
- 参考:ELIXR:通过大语言模型和放射视觉编码器的对齐构建通用X光人工智能系统
输入和输出
- 输入:序列化的
tf.Example
(在 image/encoded
特征键中写入 PNG
图像的字节)。
- 输出:嵌入向量(表示将原始图像投影到压缩特征空间的浮点向量)。
数据集详情
训练数据集
CXR Foundation使用以下去标识数据集进行训练:
- MIMIC-CXR:包含60,523名独特患者的243,324张图像。
- 来自伊利诺伊州一家学术医疗中心的私有美国数据集:包含12,988名独特患者的165,182张图像。
- 来自五家印度医院的私有数据集:包含348,335名独特患者的485,082张图像。
标注
使用监督学习从放射学报告中标记异常和正常的人类数据。然后应用医学调优的大语言模型Med-Palm 2 29确保标签与报告一致,并由一位获得认证的胸科放射科医生(CL)对MIMIC-CXR中模型结果与真实情况不同的案例进行裁决。
实现信息
软件
使用 JAX 进行训练。JAX使研究人员能够利用包括TPU在内的最新一代硬件,更快、更高效地训练大型模型。
使用和限制
预期用途
- 数据高效分类:使用少量标记数据,可在CXR Foundation嵌入向量(ELIXR v2.0)之上训练分类器模型。每个嵌入向量可作为各种不同分类器的输入,几乎无需额外计算。例如临床病症检测、X光图像质量判断、X光视图或身体部位确定、设备存在判断、导管错位发现等。
- 零样本分类:通过对比模式(ELIXR-contrastive / v2.0 text),用户无需额外训练数据,通过文本提示即可获得分类分数。零样本分类通过测量图像嵌入向量与正、负文本提示的相对距离来工作。在训练数据较少时,零样本方法性能优于数据高效分类;而数据量较大时,数据高效分类性能更优。
- 语义图像检索:通过对比模式(ELIXR-contrastive / v2.0 text),用户可根据搜索查询对一组X光图像进行排序。与零样本分类类似,基于语言的图像检索依赖于图像嵌入向量与搜索查询文本嵌入向量之间的距离。
优点
- 与传统方法相比,CXR Foundation嵌入向量可显著减少胸部X光图像分析AI开发所需的数据和计算资源。
- 利用大量预训练图像,用户可使用更少的数据构建更具泛化能力的模型。
限制
- 模型仅使用来自美国和印度的去标识数据进行训练,可能无法很好地泛化到其他国家、患者群体或未用于训练的制造商的数据。
- 模型仅在有限数量的胸部X光下游任务中进行了验证。
- 建议图像质量和最小分辨率为1024x1024。
- 模型仅用于生成用户提供数据的嵌入向量,本身不进行任何预测或诊断。
- 最终用户在下游模型开发中,特定任务的验证仍然是重要的一环。
- 开发者应确保任何下游应用在使用与特定应用预期使用场景(如年龄、性别、病症、扫描仪等)相匹配的数据进行验证,以了解其性能。
🔧 技术细节
CXR Foundation的研究背景可参考以下论文:
📄 许可证
CXR Foundation的使用受 Health AI Developer Foundations使用条款 约束。
数据引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- [Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. e215–e220.
⚠️ 重要提示
若要在Hugging Face上访问CXR Foundation,您需要查看并同意 Health AI Developer Foundation的使用条款。请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
模型文档:CXR Foundation
资源:
作者:Google