🚀 AM - RADIO:将所有领域归为一体
AM - RADIO 是一款用于视觉特征提取的模型,能够生成图像嵌入,供下游模型进行图像分类等任务。该模型仅用于研究和开发。
🚀 快速开始
从 HuggingFace 拉取模型
要从 HuggingFace 拉取模型,你需要先登录:
huggingface-cli login
然后可以在 Python 脚本中拉取模型:
from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)
或者,你可以指定访问令牌:
access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)
✨ 主要特性
- 能够执行视觉特征提取,生成可用于下游模型进行图像分类的图像嵌入。
- 模型输入维度灵活,支持一定范围内的输入尺寸。
📦 安装指南
文档未提及具体安装步骤,可参考相关代码仓库中的说明。
💻 使用示例
基础用法
RADIO 将返回一个包含两个张量的元组。summary
类似于 ViT 中的 cls_token
,用于表示整个图像的总体概念,形状为 $(B,C)$,其中 $B$ 是批次维度,$C$ 是通道数。spatial_features
表示更局部的内容,适用于密集任务(如语义分割)或集成到 LLM 中,形状为 $(B,T,D)$,其中 $T$ 是扁平化的空间令牌,$D$ 是空间特征的通道数。通常情况下 $C \neq D$。
高级用法
将 spatial_features
转换为空间张量格式,可以结合模型的下采样大小和输入张量形状来完成。对于 'radio_v1',补丁大小为 14:
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
得到的张量形状为 $(B,D,H,W)$,这是计算机视觉模型中常见的形状。
📚 详细文档
模型概述
该模型由 Mike Ranzinger、Greg Heinrich、Jan Kautz、Pavlo Molchanov 开发,由 NVIDIA Research 提供。它主要用于视觉特征提取,仅用于研究和开发。
模型架构
输入
- 输入类型:图像
- 输入格式:红、绿、蓝(RGB)
- 输入参数:二维(2D)
- 其他输入相关属性:图像分辨率最高可达 2048x2028,以 16 像素为增量
输出
- 输出类型:嵌入
- 输出格式:张量
- 输出参数:2D
- 其他输出相关属性:需要下游模型来利用图像特征
软件集成
- 运行时引擎:TAO - 24.10
- 支持的硬件微架构兼容性:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
- 首选/支持的操作系统:Linux、Linux 4 Tegra、QNX、Windows
预训练模型
可参考 model_results.csv
了解模型版本及其指标。
链接:https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6
训练、测试和评估数据集
训练数据集
- 链接:https://www.datacomp.ai/
- 数据收集方法:自动化
- 标注方法:不适用(不需要标签)
- 属性:使用 Common Crawl 从互联网收集的 128 亿张不同图像
评估数据集
- 链接:ImageNet
- 数据收集方法:自动化
- 标注方法:人工
- 属性:该数据集涵盖 1000 个对象类别,包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像
推理
引用
如果你发现这个仓库有用,请考虑给它加星并引用:
@InProceedings{Ranzinger_2024_CVPR,
author = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
title = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2024},
pages = {12490 - 12500}
}
@misc{ranzinger2024phisdistributionbalancinglabelfree,
title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation},
author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
year={2024},
eprint={2410.01680},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01680},
}
伦理考量(仅适用于 NVIDIA 模型)
NVIDIA 认为可信 AI 是一项共同责任,我们已经制定了政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用该模型时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
🔧 技术细节
RADIOv1 注意事项
我们训练的这个模型在输入维度上具有灵活性,它支持宽度和高度在 $[14, 1008]$ 范围内的输入,只要两个轴都能被 14 整除。我们发现,在 $H = W = 378$ 时,摘要令牌效果最佳(尽管 $[192, 448]$ 范围也效果良好)。对于空间任务,我们使用 $H = W = 518$ 进行语义分割的线性探测,对于更高分辨率的任务可能效果更好。当分辨率达到 1008 时,为了获得最佳结果,模型可能需要在该分辨率下进行额外的微调。
虽然不要求 $H = W$,但我们尚未在这种设置下专门训练或测试该模型。
📄 许可证
RADIO 代码和权重根据 NSCLv1 许可证 发布。
🔍 参考资料