🚀 CXR-BERT-general
CXR-BERT是一种胸部X光(CXR)领域特定的语言模型,它利用了改进的词汇表、新颖的预训练程序、权重正则化和文本增强技术。该模型在放射学自然语言推理、放射学掩码语言模型标记预测以及零样本短语定位和图像分类等下游视觉语言处理任务中表现出色。本通用模型通过特定领域的微调,有望应用于胸部放射学以外的临床领域研究。
🚀 快速开始
CXR-BERT模型有不同的变体和训练阶段,下面为你详细介绍其训练过程和模型变体:
- CXR-BERT-general预训练:我们首先从一个随机初始化的BERT模型开始,通过掩码语言建模(MLM)在PubMed摘要以及公开可用的MIMIC-III和MIMIC-CXR临床笔记上对CXR-BERT-general进行预训练。因此,该通用模型有望通过特定领域的微调应用于胸部放射学以外的临床领域研究。
- CXR-BERT-specialized持续预训练:CXR-BERT-specialized在CXR-BERT-general的基础上进行持续预训练,以进一步专注于胸部X光领域。
- 多模态对比学习训练:在最后阶段,CXR-BERT在多模态对比学习框架下进行训练,类似于CLIP框架。利用[CLS]标记的潜在表示来对齐文本/图像嵌入。
✨ 主要特性
模型变体
属性 |
详情 |
模型类型 |
CXR-BERT有通用和专业两种变体,分别适用于生物医学文献、临床领域和胸部X光领域。 |
训练数据 |
模型基于PubMed、MIMIC-III和MIMIC-CXR等公开可用数据集构建,这些数据集涵盖了从生物医学摘要到重症监护室笔记再到胸部X光放射学笔记等广泛来源。 |
📚 详细文档
引用信息
相关论文已被接受在2022年欧洲计算机视觉会议(ECCV)上展示。
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
模型使用
预期用途
本模型仅用于(I)未来视觉语言处理研究和(II)复现参考论文中报告的实验结果。
- 主要预期用途:主要用于支持在此基础上开展工作的AI研究人员。CXR-BERT及其相关模型有助于探索各种临床NLP和VLP研究问题,特别是在放射学领域。
- 非预期用途:目前,该模型的任何部署用例(商业或其他)均不在范围内。尽管我们使用了广泛的公开研究基准对模型进行了评估,但模型和评估并非用于部署用例。更多详细信息请参考相关论文。
数据
本模型基于现有的公开数据集构建:
这些数据集反映了从生物医学摘要到重症监护室笔记再到胸部X光放射学笔记等广泛的来源。在MIMIC-CXR数据集中,放射学笔记伴随着相关的胸部X光DICOM图像。
性能
通过改进的词汇表和利用放射学报告中的语义和话语特征的新颖语言预训练目标,该语言模型在放射学自然语言推理中取得了最先进的成果。
与其他常见模型(包括ClinicalBERT和PubMedBERT)的比较亮点如下:
|
放射学自然语言推理准确率(MedNLI迁移) |
掩码预测准确率 |
分词后平均标记数 |
词汇表大小 |
放射学自然语言推理基线 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98(+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55(+11.16%) |
28,895 |
CXR-BERT(第三阶段后) |
60.46 |
77.72 |
58.07(+1.59%) |
30,522 |
CXR-BERT(第三阶段 + 联合训练后) |
65.21 |
81.58 |
58.07(+1.59%) |
30,522 |
CXR-BERT还通过其改进的文本编码能力有助于更好的视觉语言表示学习。以下是在MS-CXR数据集上的零样本短语定位性能,该数据集评估了图像-文本潜在表示的质量。
视觉 - 语言预训练方法 |
文本编码器 |
MS-CXR短语定位(平均CNR分数) |
基线 |
ClinicalBERT |
0.769 |
基线 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
关于性能的更多详细信息可在相应论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》中找到。
局限性
本模型使用英语语料库开发,因此可视为仅支持英语。
更多信息
有关模型训练和评估的更多详细信息,请参考相应论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》,ECCV'22。
有关使用CXR-BERT的其他推理管道,请参考HI-ML GitHub仓库。相关源文件很快将通过此链接访问。
📄 许可证
本项目采用MIT许可证。