🚀 CXR-BERT-general
CXR-BERTは、改善された語彙、新しい事前学習手順、重み正則化、およびテキスト拡張を利用した胸部X線(CXR)ドメイン固有の言語モデルです。このモデルは、放射線学の自然言語推論、放射線学のマスク付き言語モデルのトークン予測、およびゼロショットフレーズグラウンディングや画像分類などの下流のビジョン言語処理タスクで改善された性能を示します。
🚀 クイックスタート
CXR-BERTは、改善された語彙や新しい事前学習手順を用いて、胸部X線ドメインの言語処理性能を向上させます。まず、一般的なモデルであるCXR-BERT-generalは、PubMedの論文要約やMIMIC-III、MIMIC-CXRの臨床ノートを用いて事前学習され、胸部放射線学以外の臨床ドメインの研究にも適用可能です。その後、CXR-BERT-specializedはCXR-BERT-generalからさらに胸部X線ドメインに特化して事前学習されます。
✨ 主な機能
- 高度な事前学習: 改善された語彙と新しい事前学習手順を用いて、放射線学の自然言語推論やマスク付き言語モデルのトークン予測性能を向上させます。
- 多モーダル学習: CLIPフレームワークに似た多モーダル対照学習フレームワークで訓練され、テキストと画像の埋め込みをアラインさせます。
- 汎用性: 胸部放射線学以外の臨床ドメインの研究にも、ドメイン固有の微調整を通じて適用可能です。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルのバリエーション
引用
対応する論文は、European Conference on Computer Vision (ECCV) 2022で発表されます。
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
モデルの使用
意図された使用法
このモデルは、(I)ビジョン言語処理の将来の研究と(II)参照論文で報告された実験結果の再現性のためにのみ使用されることを意図しています。
主な意図された使用法
主な意図された使用法は、この研究を基にしたAI研究者を支援することです。CXR-BERTとその関連モデルは、特に放射線学ドメインにおける様々な臨床NLPとVLPの研究課題を探求するのに役立つはずです。
範囲外の使用
モデルのすべての展開されたユースケース(商用またはその他)は、現在のところ範囲外です。モデルは広範囲の公開された研究ベンチマークを使用して評価されましたが、モデルと評価は展開されたユースケースを意図していません。詳細については、関連する論文を参照してください。
データ
このモデルは、既存の公開データセットに基づいて構築されています。
これらのデータセットは、生物医学論文の要約から集中治療室のノート、胸部X線放射線学のノートまで、幅広い情報源を反映しています。放射線学のノートには、MIMIC-CXRデータセットでは関連する胸部X線DICOM画像が付随しています。
性能
この言語モデルは、改善された語彙と放射線学レポートの意味論と談話特性を利用した新しい言語事前学習目標により、放射線学の自然言語推論で最先端の結果を達成することを示しています。
他の一般的なモデル(ClinicalBERTやPubMedBERTを含む)との比較のハイライトは次のとおりです。
|
RadNLI精度 (MedNLI転移) |
マスク予測精度 |
トークン化後の平均トークン数 |
語彙サイズ |
RadNLIベースライン |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98 (+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55 (+11.16%) |
28,895 |
CXR-BERT (Phase-III後) |
60.46 |
77.72 |
58.07 (+1.59%) |
30,522 |
CXR-BERT (Phase-III + 共同学習後) |
65.21 |
81.58 |
58.07 (+1.59%) |
30,522 |
CXR-BERTはまた、改善されたテキストエンコーディング機能により、より良いビジョン言語表現学習にも貢献します。以下は、画像とテキストの潜在表現の品質を評価するMS-CXRデータセットでのゼロショットフレーズグラウンディング性能です。
ビジョン–言語事前学習方法 |
テキストエンコーダ |
MS-CXRフレーズグラウンディング (平均CNRスコア) |
ベースライン |
ClinicalBERT |
0.769 |
ベースライン |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
性能に関する追加の詳細は、対応する論文、Making the Most of Text Semantics to Improve Biomedical Vision-Language Processingに記載されています。
制限事項
このモデルは英語のコーパスを使用して開発されているため、英語のみで使用可能と考えられます。
追加情報
モデルのトレーニングと評価に関する追加の詳細については、対応する論文、"Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing", ECCV'22を参照してください。
CXR-BERTを使用した追加の推論パイプラインについては、HI-ML GitHubリポジトリを参照してください。関連するソースファイルは、すぐにこのリンクからアクセスできるようになります。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。