🚀 BioViL-T
BioViL-Tは、胸部X線(CXR)と放射線学的レポートを分析するために設計されたドメイン固有のビジョン言語モデルです。このモデルは、時間的なマルチモーダル事前学習手順を用いて訓練されており、その前身のモデル(BioViL)とは異なります。具体的には、BioViL-Tはデータポイント間の時間的構造を活用することで、前身と同じ訓練データセットを使用しながらも、複数のベンチマークでの下流性能を向上させています。特に、得られたモデルは、画像とテキストのモダリティに含まれる時間的情報の埋め込み(結果参照)や、共同空間における性能が大幅に向上しています。この標準モデルは、自然言語推論、フレーズグラウンディング、画像/テキスト分類、言語デコーディングなど、単一画像およびマルチ画像の下流アプリケーションに適応させることができます。
🚀 クイックスタート
BioViL-Tは、胸部X線と放射線学的レポートの分析に特化したビジョン言語モデルです。以下に、このモデルを使用して放射線学的文の埋め込みを抽出し、それらのコサイン類似度を共同空間(画像とテキスト)で取得する方法を示します。
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-BioViL-T"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["No pleural effusion or pneumothorax is seen.",
"There is no pneumothorax or pleural effusion.",
"The extent of the pleural effusion is reduced.",
"The extent of the pleural effusion remains constant.",
"Interval enlargement of pleural effusion."]
with torch.no_grad():
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
✨ 主な機能
- 時間的なマルチモーダル事前学習手順を用いて訓練され、データポイント間の時間的構造を活用することで、下流性能を向上させます。
- 画像とテキストのモダリティに含まれる時間的情報の埋め込み性能が大幅に向上しています。
- 自然言語推論、フレーズグラウンディング、画像/テキスト分類、言語デコーディングなど、単一画像およびマルチ画像の下流アプリケーションに適応させることができます。
📚 ドキュメント
言語モデルのバリエーション
画像モデル
画像モデルは、マルチモーダル対照学習フレームワークでテキストモデルと共同で訓練されています。これは、Vision TransformerとResNet-50から構成されるハイブリッド画像エンコーダで、後者は各時点で画像から特徴を抽出するためのバックボーンネットワークとして使用されます。トランスフォーマーは、時間次元にわたって抽出された画像特徴を集約および比較するために設計に含まれています。対応するモデル定義とそのロード関数は、私たちのHI-ML-Multimodal GitHubリポジトリを通じてアクセスできます。画像とテキストの共同モデルであるBioViL-Tは、このPythonノートブックの例に示すように、フレーズグラウンディングアプリケーションで使用できます。また、フレーズグラウンディングタスクにおける画像とテキストの共同モデルのより体系的な評価については、MS-CXRベンチマークを確認してください。
引用
対応する論文は、Conference on Computer Vision and Pattern Recognition (CVPR) 2023で発表される予定です。
@misc{https://doi.org/10.48550/arXiv.2301.04558,
doi = {10.48550/ARXIV.2301.04558},
url = {https://arxiv.org/abs/2301.04558},
author = {Bannur, Shruthi and Hyland, Stephanie and Liu, Qianchu and Perez-Garcia, Fernando and Ilse, Maximilian and Castro, Daniel C and Boecking, Benedikt and Sharma, Harshita and Bouzid, Kenza and Thieme, Anja and Schwaighofer, Anton and Wetscherek, Maria and Lungren, Matthew P and Nori, Aditya and Alvarez-Valle, Javier and Oktay, Ozan},
title = {Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing},
publisher = {arXiv},
year = {2023},
}
モデルの使用
意図された使用法
このモデルは、(I)ビジュアル言語処理に関する将来の研究、および(II)参照論文に報告されている実験結果の再現性のためにのみ使用することを意図しています。
主な意図された使用法
主な意図された使用法は、この研究を基にしたAI研究者を支援することです。CXR-BERTとその関連モデルは、特に放射線学ドメインにおけるさまざまな臨床NLPおよびVLP研究の質問を探求するのに役立つはずです。
範囲外の使用法
モデルのすべての展開されたユースケース(商用またはその他)は、現在のところ範囲外です。私たちは、広範な公開ベンチマークを使用してモデルを評価しましたが、モデルと評価は展開されたユースケースを想定していません。異常な状況下では、モデルは不正確な予測を行い、制限があることがあり、追加の緩和策が必要になる場合があります。したがって、自動診断または医療機器でのモデルの使用は推奨しません。詳細については、関連論文を参照してください。
データ
このモデルは、既存の公開データセットに基づいて構築されています。
これらのデータセットは、バイオメディカルアブストラクトから集中治療室のノート、胸部X線放射線学的ノートまで、幅広いソースを反映しています。放射線学的ノートは、MIMIC-CXRデータセットでは関連する胸部X線DICOM画像とともに提供されています。
性能
提示されたモデルは、訓練時に意味論と談話特性をより効率的に活用することで、放射線学の自然言語推論において最先端の結果を達成しています。実験は、RadNLIおよびMS-CXR-Tベンチマークで行われ、それぞれ静的および時間的意味論の観点からテキスト埋め込みの品質を測定しています。BioViL-Tは、PubMedBERTやCXR-BERTなど、他の一般的に使用される最先端のドメイン固有のBERTモデルと比較されています。以下の結果は、BioViL-Tが時間的内容(MS-CXR-T)に対する文の埋め込みの感度を向上させると同時に、静的内容(RadNLI)をよりよく捉えていることを示しています。
新しい事前学習フレームワークは、より良いビジョン言語表現ももたらします。以下は、画像テキスト潜在表現の品質を評価するMS-CXRベンチマークデータセットで得られたゼロショットフレーズグラウンディング性能です。
ビジョン–言語事前学習方法 |
MS-CXRフレーズグラウンディング (平均CNRスコア) |
MS-CXRフレーズグラウンディング (mIoU) |
BioViL |
1.07 +- 0.04 |
0.229 +- 0.005 |
BioViL-L |
1.21 +- 0.05 |
0.202 +- 0.010 |
BioViL-T |
1.33 +- 0.04 |
0.240 +- 0.005 |
追加の実験結果と議論は、対応する論文、"Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing", CVPR'23に記載されています。
制限事項
このモデルは英語コーパスを使用して開発されているため、英語のみと見なすことができます。
訓練データセットには、集中治療室(ICU)から取得された医療画像とレポートのみが含まれており、縦断的な画像は多くの場合数時間または最大数日の範囲で収集されています。その結果、スキャン間で大きな解剖学的変化が見られる長期間(例えば数年)にわたって取得された連続画像の分析では、モデルの性能が低下する可能性があります。
詳細情報
モデルの訓練と評価に関する追加の詳細については、対応する論文、"Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing", CVPR'23を参照してください。
BioViL-Tを使用した追加の推論パイプラインについては、HI-ML GitHubリポジトリを参照してください。関連するソースファイルは、このリンクを通じてすぐにアクセスできるようになります。
📄 ライセンス
このプロジェクトはMITライセンスの下でライセンスされています。