🚀 RAD-DINO-MAIRA-2
RAD-DINO-MAIRA-2は、自己教師付き学習手法DINOv2を用いて胸部レントゲン画像をエンコードするように訓練されたビジョントランスフォーマーモデルです。このモデルは、研究目的でのみ共有されており、臨床現場での使用を意図していません。
🚀 クイックスタート
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
patch_features = pipe("https://www.bhf.org.uk/-/media/images/information-support/tests/chest-x-ray/normal-chest-x-ray-620x400.jpg")
詳細な例については、RAD-DINOを参照してください。
✨ 主な機能
- 研究目的の共有:RAD-DINO-MAIRA-2は研究目的でのみ共有されており、臨床現場での使用を意図していません。
- 下流タスクへの適用:このモデルはビジョンバックボーンとして機能し、下流タスク用の他のモデルに組み込むことができます。具体的な用途としては、画像分類、画像セグメンテーション、クラスタリング、画像検索、レポート生成などがあります。
- 少ないファインチューニングでの良好な性能:下流タスクで良好な性能を得るために、RAD-DINO-MAIRA-2をファインチューニングする必要は通常ありません。
📦 インストール
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
📚 ドキュメント
モデルの説明
RAD-DINO-MAIRA-2は、RAD-DINOのバリアントであり、MAIRA-2: Grounded Radiology Report Generation (S. Bannur, K. Bouzid, et al., 2024)で使用されているバージョンです。RAD-DINOと比較して、より多くのデータで訓練されています。
- 開発元:Microsoft Health Futures
- モデルタイプ:ビジョントランスフォーマー
- ライセンス:MSRLA
- ファインチューニング元のモデル:
dinov2-base
用途
RAD-DINO-MAIRA-2は研究目的でのみ共有されており、臨床現場での使用を意図していません。このモデルはビジョンバックボーンとして機能し、下流タスク用の他のモデルに組み込むことができます。いくつかの潜在的な用途は以下の通りです。
- 画像分類:
CLS
トークンの上に訓練された分類器を使用して行います。
- 画像セグメンテーション:パッチトークンを使用して訓練されたデコーダを使用して行います。
- クラスタリング:画像埋め込みを直接使用して行います。
- 画像検索:CLSトークンの最近傍を使用して行います。
- レポート生成:言語モデルを使用してテキストをデコードします。
バイアス、リスク、および制限
RAD-DINO-MAIRA-2は3つの国のデータを使用して訓練されているため、訓練データ内の人口に対してバイアスがある可能性があります。訓練データセットの潜在的なバイアスは十分に特徴付けられていない可能性があります。
訓練の詳細
訓練データ
RAD-DINO-MAIRA-2の訓練には、5つの公開データセットと1つの非公開の匿名化された胸部レントゲン画像データセットの画像を使用しました。
MAIRA-2の訓練に使用された検証セットとテストセットの画像は、RAD-DINO-MAIRA-2の訓練セットから除外されています。
訓練手順
訓練手順の詳細な説明については、論文を参照してください。
前処理
すべてのDICOMファイルは、Bスプライン補間を使用してリサイズされ、短辺が518になるように調整され、[0, 255]に最小最大スケーリングされ、PNGファイルとして保存されました。
訓練ハイパーパラメータ
- 訓練方式:PyTorch-FSDP混合精度を使用したfp16。
評価
評価については、論文で最もよく説明されています。
環境への影響
- ハードウェアタイプ:NVIDIA A100 GPUs
- 使用時間:41時間/GPU × 8ノード × 4 GPU/ノード = 1312 GPU時間
- クラウドプロバイダー:Azure
- コンピュートリージョン:West US 2
- 排出された二酸化炭素:98.4 kg CO₂ eq.
コンピュートインフラストラクチャ
RAD-DINO-MAIRA-2はAzure Machine Learning上で訓練されました。
ハードウェア
8つのStandard_NC96ads_A100_v4
ノードを使用し、各ノードには4つのNVIDIA A100 (80 GB) GPUが搭載されていました。
ソフトウェア
訓練にはDINOv2のコードを利用しました。DICOMファイルの処理にはSimpleITKとPydicomを使用しました。
📄 ライセンス
このモデルはMSRLAライセンスの下で提供されています。
📚 引用
BibTeX:
@misc{perezgarcia2024raddino,
title={{RAD-DINO}: Exploring Scalable Medical Image Encoders Beyond Text Supervision},
author={Fernando Pérez-García and Harshita Sharma and Sam Bond-Taylor and Kenza Bouzid and Valentina Salvatelli and Maximilian Ilse and Shruthi Bannur and Daniel C. Castro and Anton Schwaighofer and Matthew P. Lungren and Maria Wetscherek and Noel Codella and Stephanie L. Hyland and Javier Alvarez-Valle and Ozan Oktay},
year={2024},
eprint={2401.10815},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
APA:
Pérez-García, F., Sharma, H., Bond-Taylor, S., Bouzid, K., Salvatelli, V., Ilse, M., Bannur, S., Castro, D.C., Schwaighofer, A., Lungren, M.P., Wetscherek, M.T., Codella, N., Hyland, S.L., Alvarez-Valle, J., & Oktay, O. (2024). RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision. ArXiv, abs/2401.10815.
📞 モデルカードの問い合わせ先
Fernando Pérez-García (fperezgarcia@microsoft.com
)