🚀 CXR-BERT-specialized
CXR-BERTは、胸部X線(CXR)ドメイン固有の言語モデルです。改善された語彙、新しい事前学習手順、重み正則化、およびテキスト拡張を利用しています。この結果、放射線学の自然言語推論、放射線学のマスク付き言語モデルのトークン予測、およびゼロショットフレーズグラウンディングや画像分類などの下流のビジョン言語処理タスクで、改善されたパフォーマンスを示します。
まず、ランダムに初期化されたBERTモデルから、CXR-BERT-generalを、PubMedの抄録と、公開されているMIMIC-IIIおよびMIMIC-CXRの臨床ノートを使用して、マスク付き言語モデリング(MLM)によって事前学習します。この点で、一般モデルは、胸部放射線学以外の臨床ドメインの研究にも、ドメイン固有の微調整を通じて適用可能と考えられます。
CXR-BERT-specializedは、CXR-BERT-generalから継続的に事前学習され、胸部X線ドメインにさらに特化しています。最終段階では、CXR-BERTは、CLIPフレームワークと同様のマルチモーダル対照学習フレームワークで学習されます。[CLS]トークンの潜在表現を利用して、テキスト/画像埋め込みをアラインメントします。
✨ 主な機能
🔍 モデルのバリエーション
🖼️ 画像モデル
CXR-BERT-specializedは、マルチモーダル対照学習フレームワークでResNet-50画像モデルと共同で学習されています。マルチモーダル学習の前に、画像モデルは、MIMIC-CXRの同じ画像セットでSimCLRを使用して事前学習されています。対応するモデル定義とその読み込み関数は、HI-ML-MultimodalのGitHubリポジトリからアクセスできます。画像とテキストの共同モデルであるBioViLは、このPythonノートブックの例に示すように、フレーズグラウンディングアプリケーションで使用できます。また、フレーズグラウンディングタスクにおける画像とテキストの共同モデルのより体系的な評価については、MS-CXRベンチマークを参照してください。
📖 引用
対応する論文は、European Conference on Computer Vision (ECCV) 2022で発表される予定です。
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
📦 インストール
このモデルを使用するには、以下の依存関係をインストールする必要があります。
pip install torch transformers
💻 使用例
基本的な使用法
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-CXR-BERT-specialized"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["There is no pneumothorax or pleural effusion",
"No pleural effusion or pneumothorax is seen",
"The extent of the pleural effusion is constant."]
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
📚 ドキュメント
📖 モデルの使用
意図された使用法
このモデルは、(I) ビジョン言語処理に関する将来の研究と、(II) 参照論文に報告されている実験結果の再現性のためにのみ使用することを意図しています。
主な意図された使用法
主な意図された使用法は、この研究をベースにしたAI研究者をサポートすることです。CXR-BERTとその関連モデルは、特に放射線学ドメインにおけるさまざまな臨床NLPとVLPの研究課題を探求するのに役立つはずです。
範囲外の使用法
モデルのすべての展開されたユースケース(商用またはその他)は、現在のところ範囲外です。広範な公開されている研究ベンチマークを使用してモデルを評価しましたが、モデルと評価は展開されたユースケースを対象としていません。詳細については、関連論文を参照してください。
📊 データ
このモデルは、既存の公開されているデータセットに基づいて構築されています。
これらのデータセットは、生物医学の抄録から集中治療室のノート、胸部X線放射線学のノートまで、幅広いソースを反映しています。放射線学のノートには、MIMIC-CXRデータセットで関連する胸部X線DICOM画像が添付されています。
📈 パフォーマンス
この言語モデルは、改善された語彙と、放射線学レポートの意味論と談話特性を利用した新しい言語事前学習目的により、放射線学の自然言語推論において最先端の結果を達成しています。
ClinicalBERTやPubMedBERTなどの他の一般的なモデルとの比較のハイライトは以下の通りです。
モデル |
RadNLI精度 (MedNLI転移) |
マスク予測精度 |
トークン化後の平均トークン数 |
語彙サイズ |
RadNLIベースライン |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98 (+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55 (+11.16%) |
28,895 |
CXR-BERT (Phase-III後) |
60.46 |
77.72 |
58.07 (+1.59%) |
30,522 |
CXR-BERT (Phase-III + 共同学習後) |
65.21 |
81.58 |
58.07 (+1.59%) |
30,522 |
CXR-BERTはまた、改善されたテキストエンコーディング機能により、より良いビジョン言語表現学習に貢献します。以下は、画像テキストの潜在表現の品質を評価するMS-CXRデータセットでのゼロショットフレーズグラウンディングのパフォーマンスです。
ビジョン - 言語事前学習方法 |
テキストエンコーダ |
MS-CXRフレーズグラウンディング (平均CNRスコア) |
ベースライン |
ClinicalBERT |
0.769 |
ベースライン |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
🚫 制限事項
このモデルは英語コーパスを使用して開発されているため、英語のみと見なすことができます。
📋 詳細情報
モデルの学習と評価の詳細については、「Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing」, ECCV'22を参照してください。
CXR-BERTを使用した追加の推論パイプラインについては、HI-ML-Multimodal GitHubリポジトリを参照してください。
📄 ライセンス
このプロジェクトはMITライセンスの下でライセンスされています。詳細については、LICENSEファイルを参照してください。