C-RADIOv2-g开源视觉特征提取模型 - 多种规格助力图像理解与密集处理

首页

C RADIOv2 G

由 nvidia 开发

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种规格版本，适用于图像理解和密集处理任务。

图像嵌入

Transformers

开源协议:其他 #多尺度视觉嵌入 #高分辨率处理 #下游任务适配

下载量 648

发布时间 : 1/17/2025

模型简介

该模型用于执行视觉特征提取任务，生成的图像嵌入可被下游模型用于图像分类、语义分割等应用。

模型特点

多规格版本

提供基础版、大型版、巨型版和超巨型版四种规格，满足不同计算需求

高效特征提取

生成全局和局部图像嵌入，适用于图像级理解和密集处理任务

高分辨率支持

支持16像素为增量的分辨率，最高可达2048x2028

数据平衡技术

采用逆频率采样和PHI标准化技术优化训练数据分布

模型能力

图像特征提取

图像分类

语义分割

深度估计

视觉语言模型集成

使用案例

计算机视觉

图像分类

使用模型提取的图像嵌入进行图像分类任务

语义分割

利用模型的空间特征进行像素级语义分割

多模态应用

视觉语言模型

将图像特征集成到大型语言模型中

🚀 RADIO模型

RADIO模型主要用于视觉特征提取，能够生成图像嵌入，可被下游模型用于图像分类等任务。C - RADIOv2有多种尺寸可供选择，适用于商业和非商业用途。

🚀 快速开始

环境准备

确保你已经安装了必要的库：

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

加载模型和图像处理器

hf_repo = "nvidia/C-RADIOv2-g"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

处理图像

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

进行推理

summary, features = model(pixel_values)

✨ 主要特性

多尺寸可选：C - RADIOv2模型有Base（90M参数）、Large（320M参数）、Huge（653M参数）和Gigantic（1.1B参数）多种尺寸。
训练优化：C - RADIOv2训练了100万步（比v1多40万步），使用逆频率采样进行数据平衡，并使用PHI标准化进行教师分布平衡。
全球可用：该模型的部署范围为全球。
多用途：生成的嵌入可用于图像级理解、密集处理以及集成到视觉 - 语言模型中。

📦 安装指南

此部分文档未提及具体安装命令，暂不展示安装指南。

💻 使用示例

基础用法

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/C-RADIOv2-g"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

高级用法

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

📚 详细文档

模型信息

属性	详情
模型类型	神经网络
网络架构	视觉Transformer
输入类型	图像
输入格式	RGB
输入参数	二维
输入相关其他属性	图像分辨率最高可达2048x2028，以16像素为增量
输出类型	嵌入
输出格式	张量
输出参数	二维
输出相关其他属性	需要下游模型来利用图像特征

模型版本

C - RADIOv2 - B（90M参数）
C - RADIOv2 - L（320M参数）
C - RADIOv2 - H（653M参数）
C - RADIOv2 - G（1.8B参数）

模型链接

训练和评估数据集

训练数据集

名称：NV - CC - Img - Text - Dataset
数据收集方法：自动
标注方法：不适用（无需标注）
属性：包含7亿张图像

评估数据集

链接：ImageNet
数据收集方法：自动
标注方法：人工
属性：该数据集涵盖1000个对象类别，包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。

推理

推理引擎：PyTorch
测试硬件：A100

伦理考虑

NVIDIA认为可信AI是一项共同责任，并制定了相关政策和实践，以支持各种AI应用的开发。开发者在下载或使用该模型时，应与内部模型团队合作，确保该模型符合相关行业和用例的要求，并解决意外的产品滥用问题。

如需了解该模型伦理考虑的更多详细信息，请参阅以下模型卡片++可解释性、偏差、安全与保障以及隐私子卡片。

请在此报告安全漏洞或NVIDIA AI相关问题。

偏差

领域	响应
模型设计和测试中受不利影响群体（受保护类别）的参与考虑：	无
为减轻不必要偏差所采取的措施：	无

可解释性

领域	响应
预期应用和领域：	视觉特征提取
模型类型：	视觉Transformer
预期用户：	下游视觉应用开发者
输出：	图像嵌入
描述模型的工作原理：	该模型以图像为输入，通过多个Transformer块处理图像，并输出摘要和补丁嵌入。
列出已测试以确保无论在哪些受不利影响群体上都能提供可比结果的群体：	不适用
技术限制：	该模型生成的图像嵌入可被下游模型用于，例如，对图像进行分类。下游模型必须经过训练才能利用视觉嵌入。
是否验证符合规定的NVIDIA质量标准：	是
性能指标：	图像分类准确率、语义分割平均交并比。
潜在已知风险：	该模型仅在输入分辨率范围为256至2048（以16像素为增量）的情况下进行了测试。此外，生成的嵌入可能无法区分人类明显可见的差异（例如，两张显示不同品种狗的图像实际上可能产生非常相似的嵌入）。目标应用需要进行特定领域的评估。
许可：	NVIDIA开放模型许可协议

隐私

领域	响应
是否可生成或逆向工程个人数据？	无
是否使用个人数据创建此模型？	无
数据集多久审查一次？	每次发布前
训练中使用的所有数据集是否有来源证明？	是
数据标注（注释、元数据）是否符合隐私法？	是
如果提出数据更正或删除请求，数据是否符合数据主体的请求？	是

安全

领域	响应
模型应用：	生成视觉嵌入
描述关键生命影响（如果存在）：	不适用
用例限制：	遵守NVIDIA开放模型许可协议
模型和数据集限制：	应用最小特权原则（PoLP）限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制，并遵守数据集许可约束。