🚀 RADIO模型
RADIO模型主要用于视觉特征提取,能够生成图像嵌入,可被下游模型用于图像分类等任务。C - RADIOv2有多种尺寸可供选择,适用于商业和非商业用途。
🚀 快速开始
环境准备
确保你已经安装了必要的库:
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
加载模型和图像处理器
hf_repo = "nvidia/C-RADIOv2-g"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
处理图像
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
进行推理
summary, features = model(pixel_values)
✨ 主要特性
- 多尺寸可选:C - RADIOv2模型有Base(90M参数)、Large(320M参数)、Huge(653M参数)和Gigantic(1.1B参数)多种尺寸。
- 训练优化:C - RADIOv2训练了100万步(比v1多40万步),使用逆频率采样进行数据平衡,并使用PHI标准化进行教师分布平衡。
- 全球可用:该模型的部署范围为全球。
- 多用途:生成的嵌入可用于图像级理解、密集处理以及集成到视觉 - 语言模型中。
📦 安装指南
此部分文档未提及具体安装命令,暂不展示安装指南。
💻 使用示例
基础用法
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-g"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
高级用法
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
神经网络 |
网络架构 |
视觉Transformer |
输入类型 |
图像 |
输入格式 |
RGB |
输入参数 |
二维 |
输入相关其他属性 |
图像分辨率最高可达2048x2028,以16像素为增量 |
输出类型 |
嵌入 |
输出格式 |
张量 |
输出参数 |
二维 |
输出相关其他属性 |
需要下游模型来利用图像特征 |
模型版本
- C - RADIOv2 - B(90M参数)
- C - RADIOv2 - L(320M参数)
- C - RADIOv2 - H(653M参数)
- C - RADIOv2 - G(1.8B参数)
模型链接
训练和评估数据集
训练数据集
- 名称:NV - CC - Img - Text - Dataset
- 数据收集方法:自动
- 标注方法:不适用(无需标注)
- 属性:包含7亿张图像
评估数据集
- 链接:ImageNet
- 数据收集方法:自动
- 标注方法:人工
- 属性:该数据集涵盖1000个对象类别,包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。
推理
伦理考虑
NVIDIA认为可信AI是一项共同责任,并制定了相关政策和实践,以支持各种AI应用的开发。开发者在下载或使用该模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决意外的产品滥用问题。
如需了解该模型伦理考虑的更多详细信息,请参阅以下模型卡片++可解释性、偏差、安全与保障以及隐私子卡片。
请在此报告安全漏洞或NVIDIA AI相关问题。
偏差
领域 |
响应 |
模型设计和测试中受不利影响群体(受保护类别)的参与考虑: |
无 |
为减轻不必要偏差所采取的措施: |
无 |
可解释性
领域 |
响应 |
预期应用和领域: |
视觉特征提取 |
模型类型: |
视觉Transformer |
预期用户: |
下游视觉应用开发者 |
输出: |
图像嵌入 |
描述模型的工作原理: |
该模型以图像为输入,通过多个Transformer块处理图像,并输出摘要和补丁嵌入。 |
列出已测试以确保无论在哪些受不利影响群体上都能提供可比结果的群体: |
不适用 |
技术限制: |
该模型生成的图像嵌入可被下游模型用于,例如,对图像进行分类。下游模型必须经过训练才能利用视觉嵌入。 |
是否验证符合规定的NVIDIA质量标准: |
是 |
性能指标: |
图像分类准确率、语义分割平均交并比。 |
潜在已知风险: |
该模型仅在输入分辨率范围为256至2048(以16像素为增量)的情况下进行了测试。此外,生成的嵌入可能无法区分人类明显可见的差异(例如,两张显示不同品种狗的图像实际上可能产生非常相似的嵌入)。目标应用需要进行特定领域的评估。 |
许可: |
NVIDIA开放模型许可协议 |
隐私
领域 |
响应 |
是否可生成或逆向工程个人数据? |
无 |
是否使用个人数据创建此模型? |
无 |
数据集多久审查一次? |
每次发布前 |
训练中使用的所有数据集是否有来源证明? |
是 |
数据标注(注释、元数据)是否符合隐私法? |
是 |
如果提出数据更正或删除请求,数据是否符合数据主体的请求? |
是 |
安全
领域 |
响应 |
模型应用: |
生成视觉嵌入 |
描述关键生命影响(如果存在): |
不适用 |
用例限制: |
遵守NVIDIA开放模型许可协议 |
模型和数据集限制: |
应用最小特权原则(PoLP)限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制,并遵守数据集许可约束。 |
🔧 技术细节
C - RADIOv2训练了100万步(比v1多40万步),使用逆频率采样进行数据平衡,并使用PHI标准化进行教师分布平衡。
📄 许可证
使用此模型受NVIDIA开放模型许可协议的约束。