🚀 圖像特徵提取模型RADIO
本項目的RADIO模型可進行視覺特徵提取,生成圖像嵌入,供下游模型進行圖像分類等任務。C - RADIOv2有多種尺寸模型可供選擇,適用於商業和非商業用途。
🚀 快速開始
代碼示例
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-B"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
代碼解釋
summary
表示整個圖像的總體概念,形狀為 (B,C)
,其中 B
是批次維度,C
是通道數。
spatial_features
表示更局部的內容,適用於密集任務,形狀為 (B,T,D)
,其中 T
是扁平化的空間標記,D
是空間特徵的通道數。
空間特徵轉換
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
轉換後的張量形狀為 (B,D,H,W)
。
✨ 主要特性
- 多尺寸模型:C - RADIOv2 模型有 Base(90M 參數)、Large(320M 參數)、Huge(653M 參數)和 Gigantic(1.1B 參數)多種尺寸可供選擇。
- 訓練優化:C - RADIOv2 訓練了 100 萬步(比 v1 多 40 萬步),使用逆頻率採樣進行數據平衡,並使用 PHI 標準化 進行教師分佈平衡。
- 廣泛應用:生成的嵌入可用於圖像級理解、密集處理以及集成到視覺語言模型中。
📚 詳細文檔
模型概述
[Github] [CVPR 2025] [CVPR 2024]
模型描述
該模型用於視覺特徵提取,例如生成圖像嵌入,供下游模型進行圖像分類。
部署範圍
全球可用。
使用場景
- 圖像級理解(如圖像分類、整理等)。
- 密集處理(如語義分割、深度估計等)。
- 集成到視覺語言模型中。
發佈日期
Huggingface:2025 年 3 月 26 日,通過 RADIO 模型集合 發佈。
參考文獻
模型架構
屬性 |
詳情 |
模型類型 |
神經網絡 |
網絡架構 |
視覺變換器(Vision Transformer) |
輸入
屬性 |
詳情 |
輸入類型 |
圖像 |
輸入格式 |
紅、綠、藍(RGB) |
輸入參數 |
二維(2D) |
其他屬性 |
圖像分辨率最高可達 2048x2028,增量為 16 像素 |
輸出
屬性 |
詳情 |
輸出類型 |
嵌入 |
輸出格式 |
張量 |
輸出參數 |
2D |
其他屬性 |
需要下游模型來利用圖像特徵 |
軟件集成
- 運行時引擎:TAO - 24.10
- 支持的硬件微架構:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
- 支持的操作系統:Linux、Linux 4 Tegra、QNX、Windows
模型版本
- C - RADIOv2 - B(90M 參數)
- C - RADIOv2 - L(320M 參數)
- C - RADIOv2 - H(653M 參數)
- C - RADIOv2 - G(1.8B 參數)
模型鏈接
- https://huggingface.co/nvidia/C - RADIOv2 - B
- https://huggingface.co/nvidia/C - RADIOv2 - L
- https://huggingface.co/nvidia/C - RADIOv2 - H
- https://huggingface.co/nvidia/C - RADIOv2 - g
訓練和評估數據集
訓練數據集
- 數據集名稱:NV - CC - Img - Text - Dataset
- 數據收集方法:自動化
- 標註方法:不適用(無需標註)
- 數據屬性:7 億張圖像
評估數據集
- 數據集鏈接:[ImageNet](https://www.image - net.org/)
- 數據收集方法:自動化
- 標註方法:人工
- 數據屬性:該數據集涵蓋 1000 個對象類別,包含 1,281,167 張訓練圖像、50,000 張驗證圖像和 100,000 張測試圖像。
推理
倫理考量
偏差
領域 |
響應 |
模型設計和測試中受不利影響群體(受保護類別)的參與考慮 |
無 |
減輕不必要偏差的措施 |
無 |
可解釋性
領域 |
響應 |
預期應用和領域 |
視覺特徵提取 |
模型類型 |
視覺變換器(Vision Transformer) |
預期用戶 |
下游視覺應用的開發者 |
輸出 |
圖像嵌入 |
描述模型工作原理 |
模型以圖像為輸入,通過多個變換器塊處理圖像,並輸出摘要和補丁嵌入。 |
已測試以確保無論何種情況都能提供可比結果的受不利影響群體 |
不適用 |
技術限制 |
該模型生成的圖像嵌入可由下游模型使用,例如下游模型必須經過訓練才能利用視覺嵌入進行圖像分類。 |
已驗證符合 NVIDIA 規定的質量標準 |
是 |
性能指標 |
圖像分類準確率、語義分割平均交併比 |
潛在已知風險 |
該模型僅在輸入分辨率範圍從 256 到 2048(增量為 16 像素)上進行了測試。此外,生成的嵌入可能無法區分人類明顯可見的差異(例如,顯示不同品種狗的兩張圖像可能實際上產生非常相似的嵌入)。目標應用需要進行特定領域的評估。 |
許可 |
[NVIDIA 開放模型許可協議](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf) |
隱私
領域 |
響應 |
是否可生成或逆向工程個人數據 |
無 |
是否使用個人數據創建此模型 |
無 |
數據集審查頻率 |
每次發佈前 |
訓練中使用的所有數據集是否有來源證明 |
是 |
數據標註(註釋、元數據)是否符合隱私法 |
是 |
如果提出請求,數據是否符合數據主體的數據更正或刪除請求 |
是 |
安全
領域 |
響應 |
模型應用 |
生成視覺嵌入 |
描述關鍵生命影響(如果存在) |
不適用 |
使用案例限制 |
遵守 NVIDIA 開放模型許可協議 |
模型和數據集限制 |
應用最小特權原則(PoLP),限制數據集生成和模型開發的訪問權限。在訓練期間強制執行數據集訪問限制,並遵守數據集許可約束。 |
許可證
使用此模型受 [NVIDIA 開放模型許可協議](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf) 約束。
⚠️ 重要提示
當根據我們的服務條款下載或使用此模型時,開發者應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
💡 使用建議
請報告安全漏洞或 NVIDIA AI 相關問題 [點擊此處](https://www.nvidia.com/en - us/support/submit - security - vulnerability/)。