🚀 CXR-BERT-general
CXR-BERT是一種胸部X光(CXR)領域特定的語言模型,它利用了改進的詞彙表、新穎的預訓練程序、權重正則化和文本增強技術。該模型在放射學自然語言推理、放射學掩碼語言模型標記預測以及零樣本短語定位和圖像分類等下游視覺語言處理任務中表現出色。本通用模型通過特定領域的微調,有望應用於胸部放射學以外的臨床領域研究。
🚀 快速開始
CXR-BERT模型有不同的變體和訓練階段,下面為你詳細介紹其訓練過程和模型變體:
- CXR-BERT-general預訓練:我們首先從一個隨機初始化的BERT模型開始,通過掩碼語言建模(MLM)在PubMed摘要以及公開可用的MIMIC-III和MIMIC-CXR臨床筆記上對CXR-BERT-general進行預訓練。因此,該通用模型有望通過特定領域的微調應用於胸部放射學以外的臨床領域研究。
- CXR-BERT-specialized持續預訓練:CXR-BERT-specialized在CXR-BERT-general的基礎上進行持續預訓練,以進一步專注於胸部X光領域。
- 多模態對比學習訓練:在最後階段,CXR-BERT在多模態對比學習框架下進行訓練,類似於CLIP框架。利用[CLS]標記的潛在表示來對齊文本/圖像嵌入。
✨ 主要特性
模型變體
屬性 |
詳情 |
模型類型 |
CXR-BERT有通用和專業兩種變體,分別適用於生物醫學文獻、臨床領域和胸部X光領域。 |
訓練數據 |
模型基於PubMed、MIMIC-III和MIMIC-CXR等公開可用數據集構建,這些數據集涵蓋了從生物醫學摘要到重症監護室筆記再到胸部X光放射學筆記等廣泛來源。 |
📚 詳細文檔
引用信息
相關論文已被接受在2022年歐洲計算機視覺會議(ECCV)上展示。
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
模型使用
預期用途
本模型僅用於(I)未來視覺語言處理研究和(II)復現參考論文中報告的實驗結果。
- 主要預期用途:主要用於支持在此基礎上開展工作的AI研究人員。CXR-BERT及其相關模型有助於探索各種臨床NLP和VLP研究問題,特別是在放射學領域。
- 非預期用途:目前,該模型的任何部署用例(商業或其他)均不在範圍內。儘管我們使用了廣泛的公開研究基準對模型進行了評估,但模型和評估並非用於部署用例。更多詳細信息請參考相關論文。
數據
本模型基於現有的公開數據集構建:
這些數據集反映了從生物醫學摘要到重症監護室筆記再到胸部X光放射學筆記等廣泛的來源。在MIMIC-CXR數據集中,放射學筆記伴隨著相關的胸部X光DICOM圖像。
性能
通過改進的詞彙表和利用放射學報告中的語義和話語特徵的新穎語言預訓練目標,該語言模型在放射學自然語言推理中取得了最先進的成果。
與其他常見模型(包括ClinicalBERT和PubMedBERT)的比較亮點如下:
|
放射學自然語言推理準確率(MedNLI遷移) |
掩碼預測準確率 |
分詞後平均標記數 |
詞彙表大小 |
放射學自然語言推理基線 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98(+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55(+11.16%) |
28,895 |
CXR-BERT(第三階段後) |
60.46 |
77.72 |
58.07(+1.59%) |
30,522 |
CXR-BERT(第三階段 + 聯合訓練後) |
65.21 |
81.58 |
58.07(+1.59%) |
30,522 |
CXR-BERT還通過其改進的文本編碼能力有助於更好的視覺語言表示學習。以下是在MS-CXR數據集上的零樣本短語定位性能,該數據集評估了圖像-文本潛在表示的質量。
視覺 - 語言預訓練方法 |
文本編碼器 |
MS-CXR短語定位(平均CNR分數) |
基線 |
ClinicalBERT |
0.769 |
基線 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
關於性能的更多詳細信息可在相應論文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》中找到。
侷限性
本模型使用英語語料庫開發,因此可視為僅支持英語。
更多信息
有關模型訓練和評估的更多詳細信息,請參考相應論文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》,ECCV'22。
有關使用CXR-BERT的其他推理管道,請參考HI-ML GitHub倉庫。相關源文件很快將通過此鏈接訪問。
📄 許可證
本項目採用MIT許可證。