🚀 RAD-DINO-MAIRA-2模型卡
RAD-DINO-MAIRA-2是一款基于自监督学习方法的视觉变换器模型,专门用于对胸部X光片进行编码。它在医学图像研究领域具有重要价值,能为多种下游任务提供支持。
🚀 快速开始
使用以下代码示例,你可以轻松开始使用RAD-DINO-MAIRA-2进行图像特征提取:
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
patch_features = pipe("https://www.bhf.org.uk/-/media/images/information-support/tests/chest-x-ray/normal-chest-x-ray-620x400.jpg")
更详细的示例请参考 RAD-DINO。
✨ 主要特性
📦 安装指南
文档中未提及具体安装步骤,可参考 transformers
库的官方安装指南。
💻 使用示例
基础用法
from transformers import pipeline
pipe = pipeline(task="image-feature-extraction", model="microsoft/rad-dino-maira-2", pool=False)
patch_features = pipe("https://www.bhf.org.uk/-/media/images/information-support/tests/chest-x-ray/normal-chest-x-ray-620x400.jpg")
高级用法
文档中未提及高级用法示例,你可以根据自身需求对模型进行调整和扩展。
📚 详细文档
用途
RAD-DINO-MAIRA-2仅用于研究目的,不得用于临床实践。该模型作为视觉骨干网络,可与其他模型结合用于下游任务,例如:
- 图像分类:在
CLS
标记上训练分类器。
- 图像分割:使用补丁标记训练解码器。
- 聚类:直接使用图像嵌入。
- 图像检索:使用
CLS
标记的最近邻。
- 报告生成:使用语言模型解码文本。
通常,在下游任务中无需对RAD-DINO-MAIRA-2进行微调即可获得良好性能。
偏差、风险和局限性
RAD-DINO-MAIRA-2使用来自三个国家的数据进行训练,因此可能对训练数据中的人群存在偏差。训练数据集的潜在偏差可能未得到充分表征。
训练详情
训练数据
使用来自五个公开数据集和一个私有去标识胸部X光数据集的图像进行训练:
训练 MAIRA-2 时使用的验证集和测试集图像未包含在RAD-DINO-MAIRA-2的训练集中。
训练使用了8个节点,每个节点配备4个A100 GPU,每个GPU的批量大小为40张图像。最后一个检查点经过105000步训练。
训练过程
详细的训练过程描述请参考 论文。
- 预处理:所有DICOM文件使用B样条插值进行调整大小,使其较短边为518,然后进行最小-最大缩放至 [0, 255],并存储为PNG文件。
- 训练超参数:使用PyTorch-FSDP混合精度的fp16训练机制。
评估
评估详情请参考 论文。
环境影响
- 硬件类型:NVIDIA A100 GPUs
- 使用时长:41小时/GPU × 8节点 × 4 GPU/节点 = 1312 GPU小时
- 云服务提供商:Azure
- 计算区域:美国西部2
- 碳排放:98.4 kg CO₂ 当量
计算基础设施
RAD-DINO-MAIRA-2在 Azure Machine Learning 上进行训练。
- 硬件:使用8个
Standard_NC96ads_A100_v4
节点,每个节点配备四个NVIDIA A100 (80 GB) GPU。
- 软件:使用 DINOv2 中的代码进行训练,使用 SimpleITK 和 Pydicom 处理DICOM文件。
引用
BibTeX:
@misc{perezgarcia2024raddino,
title={{RAD-DINO}: Exploring Scalable Medical Image Encoders Beyond Text Supervision},
author={Fernando Pérez-García and Harshita Sharma and Sam Bond-Taylor and Kenza Bouzid and Valentina Salvatelli and Maximilian Ilse and Shruthi Bannur and Daniel C. Castro and Anton Schwaighofer and Matthew P. Lungren and Maria Wetscherek and Noel Codella and Stephanie L. Hyland and Javier Alvarez-Valle and Ozan Oktay},
year={2024},
eprint={2401.10815},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
APA:
Pérez-García, F., Sharma, H., Bond-Taylor, S., Bouzid, K., Salvatelli, V., Ilse, M., Bannur, S., Castro, D.C., Schwaighofer, A., Lungren, M.P., Wetscherek, M.T., Codella, N., Hyland, S.L., Alvarez-Valle, J., & Oktay, O. (2024). RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision. ArXiv, abs/2401.10815.
模型卡联系人
Fernando Pérez-García (fperezgarcia@microsoft.com
)。
📄 许可证
本模型使用 MSRLA 许可证。
⚠️ 重要提示
RAD-DINO-MAIRA-2仅用于研究目的,不得用于临床实践。
💡 使用建议
在使用该模型进行下游任务时,通常无需进行微调即可获得良好性能。你可以根据具体需求选择合适的下游任务,并参考文档中的示例代码进行操作。