🚀 CXR-BERT-specialized
CXR-BERT是一种胸部X光(CXR)领域特定的语言模型,它利用了改进的词汇表、新颖的预训练程序、权重正则化和文本增强技术。该模型在放射学自然语言推理、放射学掩码语言模型标记预测以及零样本短语定位和图像分类等下游视觉语言处理任务中表现出色。
🚀 快速开始
模型概述
CXR-BERT是专门针对胸部X光领域的语言模型。首先,我们通过掩码语言建模(MLM)在PubMed摘要以及公开可用的MIMIC-III和MIMIC-CXR临床笔记上,从随机初始化的BERT模型预训练出CXR-BERT-general。这个通用模型有望通过特定领域的微调应用于胸部放射学以外的临床领域研究。
CXR-BERT-specialized是在CXR-BERT-general的基础上继续预训练,以进一步专注于胸部X光领域。在最后阶段,CXR-BERT在类似于CLIP框架的多模态对比学习框架中进行训练,利用[CLS]标记的潜在表示来对齐文本/图像嵌入。
✨ 主要特性
模型变体
图像模型
CXR-BERT-specialized在多模态对比学习框架中与ResNet-50图像模型联合训练。在多模态学习之前,图像模型使用SimCLR在MIMIC-CXR的同一组图像上进行预训练。相应的模型定义和加载函数可通过我们的HI-ML-Multimodal GitHub仓库访问。联合图像和文本模型BioViL可用于短语定位应用,如这个Python笔记本示例所示。此外,请查看MS-CXR基准,以更系统地评估联合图像和文本模型在短语定位任务中的性能。
💻 使用示例
基础用法
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-CXR-BERT-specialized"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["There is no pneumothorax or pleural effusion",
"No pleural effusion or pneumothorax is seen",
"The extent of the pleural effusion is constant."]
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
高级用法
此代码示例展示了如何使用该模型提取放射学句子嵌入并在联合空间(图像和文本)中获得它们的余弦相似度。在实际应用中,你可以根据具体需求调整输入文本提示和后续处理步骤。
📚 详细文档
模型使用
预期用途
本模型仅用于(I)未来视觉语言处理研究和(II)参考论文中实验结果的可重复性。
主要预期用途
主要用于支持在此基础上开展工作的AI研究人员。CXR-BERT及其相关模型有助于探索各种临床NLP和VLP研究问题,特别是在放射学领域。
超出范围的使用
目前,模型的任何部署用例(商业或其他)都超出了范围。尽管我们使用了广泛的公开研究基准对模型进行了评估,但模型和评估并非用于部署用例。更多详细信息请参考相关论文。
数据
本模型基于现有的公开数据集构建:
这些数据集涵盖了从生物医学摘要到重症监护室笔记再到胸部X光放射学笔记等广泛的来源。在MIMIC-CXR数据集中,放射学笔记还配有相关的胸部X光DICOM图像。
性能
本语言模型通过改进的词汇表和利用放射学报告中语义和话语特征的新颖语言预训练目标,在放射学自然语言推理中取得了最先进的成果。
与其他常见模型(包括ClinicalBERT和PubMedBERT)的比较亮点如下:
模型 |
放射学自然语言推理准确率(MedNLI迁移) |
掩码预测准确率 |
分词后平均标记数 |
词汇表大小 |
放射学自然语言推理基线 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98(+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55(+11.16%) |
28,895 |
CXR-BERT(第三阶段后) |
60.46 |
77.72 |
58.07(+1.59%) |
30,522 |
CXR-BERT(第三阶段 + 联合训练后) |
65.21 |
81.58 |
58.07(+1.59%) |
30,522 |
CXR-BERT还通过其改进的文本编码能力有助于更好的视觉语言表示学习。以下是在MS-CXR数据集上的零样本短语定位性能,该数据集评估了图像-文本潜在表示的质量。
视觉 - 语言预训练方法 |
文本编码器 |
MS-CXR短语定位(平均CNR分数) |
基线 |
ClinicalBERT |
0.769 |
基线 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
更多性能详细信息可在相应论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》中找到。
局限性
本模型使用英语语料库开发,因此仅适用于英语。
更多信息
有关模型训练和评估的更多详细信息,请参考相应论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》,ECCV'22。
有关使用CXR-BERT的其他推理管道,请参考HI-ML-Multimodal GitHub仓库。
📄 许可证
本模型采用MIT许可证。
🔗 引用
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}