🚀 CXR-BERT-specialized
CXR-BERT是一種胸部X光(CXR)領域特定的語言模型,它利用了改進的詞彙表、新穎的預訓練程序、權重正則化和文本增強技術。該模型在放射學自然語言推理、放射學掩碼語言模型標記預測以及零樣本短語定位和圖像分類等下游視覺語言處理任務中表現出色。
🚀 快速開始
模型概述
CXR-BERT是專門針對胸部X光領域的語言模型。首先,我們通過掩碼語言建模(MLM)在PubMed摘要以及公開可用的MIMIC-III和MIMIC-CXR臨床筆記上,從隨機初始化的BERT模型預訓練出CXR-BERT-general。這個通用模型有望通過特定領域的微調應用於胸部放射學以外的臨床領域研究。
CXR-BERT-specialized是在CXR-BERT-general的基礎上繼續預訓練,以進一步專注於胸部X光領域。在最後階段,CXR-BERT在類似於CLIP框架的多模態對比學習框架中進行訓練,利用[CLS]標記的潛在表示來對齊文本/圖像嵌入。
✨ 主要特性
模型變體
圖像模型
CXR-BERT-specialized在多模態對比學習框架中與ResNet-50圖像模型聯合訓練。在多模態學習之前,圖像模型使用SimCLR在MIMIC-CXR的同一組圖像上進行預訓練。相應的模型定義和加載函數可通過我們的HI-ML-Multimodal GitHub倉庫訪問。聯合圖像和文本模型BioViL可用於短語定位應用,如這個Python筆記本示例所示。此外,請查看MS-CXR基準,以更系統地評估聯合圖像和文本模型在短語定位任務中的性能。
💻 使用示例
基礎用法
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-CXR-BERT-specialized"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["There is no pneumothorax or pleural effusion",
"No pleural effusion or pneumothorax is seen",
"The extent of the pleural effusion is constant."]
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
高級用法
此代碼示例展示瞭如何使用該模型提取放射學句子嵌入並在聯合空間(圖像和文本)中獲得它們的餘弦相似度。在實際應用中,你可以根據具體需求調整輸入文本提示和後續處理步驟。
📚 詳細文檔
模型使用
預期用途
本模型僅用於(I)未來視覺語言處理研究和(II)參考論文中實驗結果的可重複性。
主要預期用途
主要用於支持在此基礎上開展工作的AI研究人員。CXR-BERT及其相關模型有助於探索各種臨床NLP和VLP研究問題,特別是在放射學領域。
超出範圍的使用
目前,模型的任何部署用例(商業或其他)都超出了範圍。儘管我們使用了廣泛的公開研究基準對模型進行了評估,但模型和評估並非用於部署用例。更多詳細信息請參考相關論文。
數據
本模型基於現有的公開數據集構建:
這些數據集涵蓋了從生物醫學摘要到重症監護室筆記再到胸部X光放射學筆記等廣泛的來源。在MIMIC-CXR數據集中,放射學筆記還配有相關的胸部X光DICOM圖像。
性能
本語言模型通過改進的詞彙表和利用放射學報告中語義和話語特徵的新穎語言預訓練目標,在放射學自然語言推理中取得了最先進的成果。
與其他常見模型(包括ClinicalBERT和PubMedBERT)的比較亮點如下:
模型 |
放射學自然語言推理準確率(MedNLI遷移) |
掩碼預測準確率 |
分詞後平均標記數 |
詞彙表大小 |
放射學自然語言推理基線 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98(+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55(+11.16%) |
28,895 |
CXR-BERT(第三階段後) |
60.46 |
77.72 |
58.07(+1.59%) |
30,522 |
CXR-BERT(第三階段 + 聯合訓練後) |
65.21 |
81.58 |
58.07(+1.59%) |
30,522 |
CXR-BERT還通過其改進的文本編碼能力有助於更好的視覺語言表示學習。以下是在MS-CXR數據集上的零樣本短語定位性能,該數據集評估了圖像-文本潛在表示的質量。
視覺 - 語言預訓練方法 |
文本編碼器 |
MS-CXR短語定位(平均CNR分數) |
基線 |
ClinicalBERT |
0.769 |
基線 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
更多性能詳細信息可在相應論文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》中找到。
侷限性
本模型使用英語語料庫開發,因此僅適用於英語。
更多信息
有關模型訓練和評估的更多詳細信息,請參考相應論文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》,ECCV'22。
有關使用CXR-BERT的其他推理管道,請參考HI-ML-Multimodal GitHub倉庫。
📄 許可證
本模型採用MIT許可證。
🔗 引用
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}