C-RADIOv2-B開源視覺特徵提取模型 - 多尺寸適配圖像理解與密集視覺任務

首頁

C RADIOv2 B

由nvidia開發

C-RADIOv2是NVIDIA開發的視覺特徵提取模型，提供多種尺寸版本，適用於圖像理解和密集視覺任務。

Transformers

開源協議:其他 #多尺度視覺嵌入 #ViT架構 #下游任務適配

下載量 404

發布時間 : 1/13/2025

模型概述

該模型基於視覺Transformer架構，用於生成圖像嵌入，可被下游模型用於圖像分類、語義分割等任務。提供基礎版、大型版、巨型版和超巨型版四種參數規模。

模型特點

多尺寸版本

提供從9000萬到18億參數的不同規模版本，適應不同計算需求

長時訓練

比v1版本多訓練40萬步，達到100萬步訓練量

數據平衡技術

使用逆頻率採樣進行數據平衡，並通過PHI標準化平衡教師分佈

高分辨率支持

支持最高2048x2028像素輸入，以16像素為增量

模型能力

圖像特徵提取

圖像級理解

密集視覺處理

視覺語言模型集成

使用案例

計算機視覺

圖像分類

使用模型生成的嵌入進行圖像分類任務

語義分割

利用空間特徵進行像素級語義分割

深度估計

基於圖像嵌入估計場景深度

多模態應用

視覺語言模型

將圖像特徵集成到大型語言模型中

🚀 圖像特徵提取模型RADIO

本項目的RADIO模型可進行視覺特徵提取，生成圖像嵌入，供下游模型進行圖像分類等任務。C - RADIOv2有多種尺寸模型可供選擇，適用於商業和非商業用途。

🚀 快速開始

代碼示例

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/C-RADIOv2-B"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

代碼解釋

summary 表示整個圖像的總體概念，形狀為 (B,C)，其中 B 是批次維度，C 是通道數。
spatial_features 表示更局部的內容，適用於密集任務，形狀為 (B,T,D)，其中 T 是扁平化的空間標記，D 是空間特徵的通道數。

空間特徵轉換

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

轉換後的張量形狀為 (B,D,H,W)。

✨ 主要特性

多尺寸模型：C - RADIOv2 模型有 Base（90M 參數）、Large（320M 參數）、Huge（653M 參數）和 Gigantic（1.1B 參數）多種尺寸可供選擇。
訓練優化：C - RADIOv2 訓練了 100 萬步（比 v1 多 40 萬步），使用逆頻率採樣進行數據平衡，並使用 PHI 標準化進行教師分佈平衡。
廣泛應用：生成的嵌入可用於圖像級理解、密集處理以及集成到視覺語言模型中。

📚 詳細文檔

模型概述

[Github] [CVPR 2025] [CVPR 2024]

模型描述

該模型用於視覺特徵提取，例如生成圖像嵌入，供下游模型進行圖像分類。

部署範圍

全球可用。

使用場景

圖像級理解（如圖像分類、整理等）。
密集處理（如語義分割、深度估計等）。
集成到視覺語言模型中。

發佈日期

Huggingface：2025 年 3 月 26 日，通過 RADIO 模型集合發佈。

參考文獻

模型架構

屬性	詳情
模型類型	神經網絡
網絡架構	視覺變換器（Vision Transformer）

輸入

屬性	詳情
輸入類型	圖像
輸入格式	紅、綠、藍（RGB）
輸入參數	二維（2D）
其他屬性	圖像分辨率最高可達 2048x2028，增量為 16 像素

輸出

屬性	詳情
輸出類型	嵌入
輸出格式	張量
輸出參數	2D
其他屬性	需要下游模型來利用圖像特徵

軟件集成

運行時引擎：TAO - 24.10
支持的硬件微架構：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
支持的操作系統：Linux、Linux 4 Tegra、QNX、Windows

模型版本

C - RADIOv2 - B（90M 參數）
C - RADIOv2 - L（320M 參數）
C - RADIOv2 - H（653M 參數）
C - RADIOv2 - G（1.8B 參數）

模型鏈接

https://huggingface.co/nvidia/C - RADIOv2 - B
https://huggingface.co/nvidia/C - RADIOv2 - L
https://huggingface.co/nvidia/C - RADIOv2 - H
https://huggingface.co/nvidia/C - RADIOv2 - g

訓練和評估數據集

訓練數據集

數據集名稱：NV - CC - Img - Text - Dataset
數據收集方法：自動化
標註方法：不適用（無需標註）
數據屬性：7 億張圖像

評估數據集

數據集鏈接：[ImageNet](https://www.image - net.org/)
數據收集方法：自動化
標註方法：人工
數據屬性：該數據集涵蓋 1000 個對象類別，包含 1,281,167 張訓練圖像、50,000 張驗證圖像和 100,000 張測試圖像。

推理

推理引擎：PyTorch
測試硬件：A100

倫理考量

偏差

領域	響應
模型設計和測試中受不利影響群體（受保護類別）的參與考慮	無
減輕不必要偏差的措施	無

可解釋性

領域	響應
預期應用和領域	視覺特徵提取
模型類型	視覺變換器（Vision Transformer）
預期用戶	下游視覺應用的開發者
輸出	圖像嵌入
描述模型工作原理	模型以圖像為輸入，通過多個變換器塊處理圖像，並輸出摘要和補丁嵌入。
已測試以確保無論何種情況都能提供可比結果的受不利影響群體	不適用
技術限制	該模型生成的圖像嵌入可由下游模型使用，例如下游模型必須經過訓練才能利用視覺嵌入進行圖像分類。
已驗證符合 NVIDIA 規定的質量標準	是
性能指標	圖像分類準確率、語義分割平均交併比
潛在已知風險	該模型僅在輸入分辨率範圍從 256 到 2048（增量為 16 像素）上進行了測試。此外，生成的嵌入可能無法區分人類明顯可見的差異（例如，顯示不同品種狗的兩張圖像可能實際上產生非常相似的嵌入）。目標應用需要進行特定領域的評估。
許可	[NVIDIA 開放模型許可協議](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf)

隱私

領域	響應
是否可生成或逆向工程個人數據	無
是否使用個人數據創建此模型	無
數據集審查頻率	每次發佈前
訓練中使用的所有數據集是否有來源證明	是
數據標註（註釋、元數據）是否符合隱私法	是
如果提出請求，數據是否符合數據主體的數據更正或刪除請求	是

安全

領域	響應
模型應用	生成視覺嵌入
描述關鍵生命影響（如果存在）	不適用
使用案例限制	遵守 NVIDIA 開放模型許可協議
模型和數據集限制	應用最小特權原則（PoLP），限制數據集生成和模型開發的訪問權限。在訓練期間強制執行數據集訪問限制，並遵守數據集許可約束。