🚀 图像特征提取模型RADIO
本项目的RADIO模型可进行视觉特征提取,生成图像嵌入,供下游模型进行图像分类等任务。C - RADIOv2有多种尺寸模型可供选择,适用于商业和非商业用途。
🚀 快速开始
代码示例
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-B"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
代码解释
summary
表示整个图像的总体概念,形状为 (B,C)
,其中 B
是批次维度,C
是通道数。
spatial_features
表示更局部的内容,适用于密集任务,形状为 (B,T,D)
,其中 T
是扁平化的空间标记,D
是空间特征的通道数。
空间特征转换
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
转换后的张量形状为 (B,D,H,W)
。
✨ 主要特性
- 多尺寸模型:C - RADIOv2 模型有 Base(90M 参数)、Large(320M 参数)、Huge(653M 参数)和 Gigantic(1.1B 参数)多种尺寸可供选择。
- 训练优化:C - RADIOv2 训练了 100 万步(比 v1 多 40 万步),使用逆频率采样进行数据平衡,并使用 PHI 标准化 进行教师分布平衡。
- 广泛应用:生成的嵌入可用于图像级理解、密集处理以及集成到视觉语言模型中。
📚 详细文档
模型概述
[Github] [CVPR 2025] [CVPR 2024]
模型描述
该模型用于视觉特征提取,例如生成图像嵌入,供下游模型进行图像分类。
部署范围
全球可用。
使用场景
- 图像级理解(如图像分类、整理等)。
- 密集处理(如语义分割、深度估计等)。
- 集成到视觉语言模型中。
发布日期
Huggingface:2025 年 3 月 26 日,通过 RADIO 模型集合 发布。
参考文献
模型架构
属性 |
详情 |
模型类型 |
神经网络 |
网络架构 |
视觉变换器(Vision Transformer) |
输入
属性 |
详情 |
输入类型 |
图像 |
输入格式 |
红、绿、蓝(RGB) |
输入参数 |
二维(2D) |
其他属性 |
图像分辨率最高可达 2048x2028,增量为 16 像素 |
输出
属性 |
详情 |
输出类型 |
嵌入 |
输出格式 |
张量 |
输出参数 |
2D |
其他属性 |
需要下游模型来利用图像特征 |
软件集成
- 运行时引擎:TAO - 24.10
- 支持的硬件微架构:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
- 支持的操作系统:Linux、Linux 4 Tegra、QNX、Windows
模型版本
- C - RADIOv2 - B(90M 参数)
- C - RADIOv2 - L(320M 参数)
- C - RADIOv2 - H(653M 参数)
- C - RADIOv2 - G(1.8B 参数)
模型链接
- https://huggingface.co/nvidia/C - RADIOv2 - B
- https://huggingface.co/nvidia/C - RADIOv2 - L
- https://huggingface.co/nvidia/C - RADIOv2 - H
- https://huggingface.co/nvidia/C - RADIOv2 - g
训练和评估数据集
训练数据集
- 数据集名称:NV - CC - Img - Text - Dataset
- 数据收集方法:自动化
- 标注方法:不适用(无需标注)
- 数据属性:7 亿张图像
评估数据集
- 数据集链接:[ImageNet](https://www.image - net.org/)
- 数据收集方法:自动化
- 标注方法:人工
- 数据属性:该数据集涵盖 1000 个对象类别,包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像。
推理
伦理考量
偏差
领域 |
响应 |
模型设计和测试中受不利影响群体(受保护类别)的参与考虑 |
无 |
减轻不必要偏差的措施 |
无 |
可解释性
领域 |
响应 |
预期应用和领域 |
视觉特征提取 |
模型类型 |
视觉变换器(Vision Transformer) |
预期用户 |
下游视觉应用的开发者 |
输出 |
图像嵌入 |
描述模型工作原理 |
模型以图像为输入,通过多个变换器块处理图像,并输出摘要和补丁嵌入。 |
已测试以确保无论何种情况都能提供可比结果的受不利影响群体 |
不适用 |
技术限制 |
该模型生成的图像嵌入可由下游模型使用,例如下游模型必须经过训练才能利用视觉嵌入进行图像分类。 |
已验证符合 NVIDIA 规定的质量标准 |
是 |
性能指标 |
图像分类准确率、语义分割平均交并比 |
潜在已知风险 |
该模型仅在输入分辨率范围从 256 到 2048(增量为 16 像素)上进行了测试。此外,生成的嵌入可能无法区分人类明显可见的差异(例如,显示不同品种狗的两张图像可能实际上产生非常相似的嵌入)。目标应用需要进行特定领域的评估。 |
许可 |
[NVIDIA 开放模型许可协议](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf) |
隐私
领域 |
响应 |
是否可生成或逆向工程个人数据 |
无 |
是否使用个人数据创建此模型 |
无 |
数据集审查频率 |
每次发布前 |
训练中使用的所有数据集是否有来源证明 |
是 |
数据标注(注释、元数据)是否符合隐私法 |
是 |
如果提出请求,数据是否符合数据主体的数据更正或删除请求 |
是 |
安全
领域 |
响应 |
模型应用 |
生成视觉嵌入 |
描述关键生命影响(如果存在) |
不适用 |
使用案例限制 |
遵守 NVIDIA 开放模型许可协议 |
模型和数据集限制 |
应用最小特权原则(PoLP),限制数据集生成和模型开发的访问权限。在训练期间强制执行数据集访问限制,并遵守数据集许可约束。 |
许可证
使用此模型受 [NVIDIA 开放模型许可协议](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf) 约束。
⚠️ 重要提示
当根据我们的服务条款下载或使用此模型时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
💡 使用建议
请报告安全漏洞或 NVIDIA AI 相关问题 [点击此处](https://www.nvidia.com/en - us/support/submit - security - vulnerability/)。