🚀 RAD-DINO-MAIRA-2模型卡
RAD-DINO-MAIRA-2是一款基於自監督學習方法的視覺變換器模型,專門用於對胸部X光片進行編碼。它在醫學圖像研究領域具有重要價值,能為多種下游任務提供支持。
🚀 快速開始
使用以下代碼示例,你可以輕鬆開始使用RAD-DINO-MAIRA-2進行圖像特徵提取:
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
patch_features = pipe("https://www.bhf.org.uk/-/media/images/information-support/tests/chest-x-ray/normal-chest-x-ray-620x400.jpg")
更詳細的示例請參考 RAD-DINO。
✨ 主要特性
📦 安裝指南
文檔中未提及具體安裝步驟,可參考 transformers
庫的官方安裝指南。
💻 使用示例
基礎用法
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
patch_features = pipe("https://www.bhf.org.uk/-/media/images/information-support/tests/chest-x-ray/normal-chest-x-ray-620x400.jpg")
高級用法
文檔中未提及高級用法示例,你可以根據自身需求對模型進行調整和擴展。
📚 詳細文檔
用途
RAD-DINO-MAIRA-2僅用於研究目的,不得用於臨床實踐。該模型作為視覺骨幹網絡,可與其他模型結合用於下游任務,例如:
- 圖像分類:在
CLS
標記上訓練分類器。
- 圖像分割:使用補丁標記訓練解碼器。
- 聚類:直接使用圖像嵌入。
- 圖像檢索:使用
CLS
標記的最近鄰。
- 報告生成:使用語言模型解碼文本。
通常,在下游任務中無需對RAD-DINO-MAIRA-2進行微調即可獲得良好性能。
偏差、風險和侷限性
RAD-DINO-MAIRA-2使用來自三個國家的數據進行訓練,因此可能對訓練數據中的人群存在偏差。訓練數據集的潛在偏差可能未得到充分表徵。
訓練詳情
訓練數據
使用來自五個公開數據集和一個私有去標識胸部X光數據集的圖像進行訓練:
訓練 MAIRA-2 時使用的驗證集和測試集圖像未包含在RAD-DINO-MAIRA-2的訓練集中。
訓練使用了8個節點,每個節點配備4個A100 GPU,每個GPU的批量大小為40張圖像。最後一個檢查點經過105000步訓練。
訓練過程
詳細的訓練過程描述請參考 論文。
- 預處理:所有DICOM文件使用B樣條插值進行調整大小,使其較短邊為518,然後進行最小-最大縮放至 [0, 255],並存儲為PNG文件。
- 訓練超參數:使用PyTorch-FSDP混合精度的fp16訓練機制。
評估
評估詳情請參考 論文。
環境影響
- 硬件類型:NVIDIA A100 GPUs
- 使用時長:41小時/GPU × 8節點 × 4 GPU/節點 = 1312 GPU小時
- 雲服務提供商:Azure
- 計算區域:美國西部2
- 碳排放:98.4 kg CO₂ 當量
計算基礎設施
RAD-DINO-MAIRA-2在 Azure Machine Learning 上進行訓練。
- 硬件:使用8個
Standard_NC96ads_A100_v4
節點,每個節點配備四個NVIDIA A100 (80 GB) GPU。
- 軟件:使用 DINOv2 中的代碼進行訓練,使用 SimpleITK 和 Pydicom 處理DICOM文件。
引用
BibTeX:
@misc{perezgarcia2024raddino,
title={{RAD-DINO}: Exploring Scalable Medical Image Encoders Beyond Text Supervision},
author={Fernando Pérez-García and Harshita Sharma and Sam Bond-Taylor and Kenza Bouzid and Valentina Salvatelli and Maximilian Ilse and Shruthi Bannur and Daniel C. Castro and Anton Schwaighofer and Matthew P. Lungren and Maria Wetscherek and Noel Codella and Stephanie L. Hyland and Javier Alvarez-Valle and Ozan Oktay},
year={2024},
eprint={2401.10815},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
APA:
Pérez-García, F., Sharma, H., Bond-Taylor, S., Bouzid, K., Salvatelli, V., Ilse, M., Bannur, S., Castro, D.C., Schwaighofer, A., Lungren, M.P., Wetscherek, M.T., Codella, N., Hyland, S.L., Alvarez-Valle, J., & Oktay, O. (2024). RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision. ArXiv, abs/2401.10815.
模型卡聯繫人
Fernando Pérez-García (fperezgarcia@microsoft.com
)。
📄 許可證
本模型使用 MSRLA 許可證。
⚠️ 重要提示
RAD-DINO-MAIRA-2僅用於研究目的,不得用於臨床實踐。
💡 使用建議
在使用該模型進行下游任務時,通常無需進行微調即可獲得良好性能。你可以根據具體需求選擇合適的下游任務,並參考文檔中的示例代碼進行操作。