C-RADIOv2-g開源視覺特徵提取模型 - 多種規格助力圖像理解與密集處理

首頁

C RADIOv2 G

由nvidia開發

C-RADIOv2是NVIDIA開發的視覺特徵提取模型，提供多種規格版本，適用於圖像理解和密集處理任務。

Transformers

開源協議:其他 #多尺度視覺嵌入 #高分辨率處理 #下游任務適配

下載量 648

發布時間 : 1/17/2025

模型概述

該模型用於執行視覺特徵提取任務，生成的圖像嵌入可被下游模型用於圖像分類、語義分割等應用。

模型特點

多規格版本

提供基礎版、大型版、巨型版和超巨型版四種規格，滿足不同計算需求

高效特徵提取

生成全局和局部圖像嵌入，適用於圖像級理解和密集處理任務

高分辨率支持

支持16像素為增量的分辨率，最高可達2048x2028

數據平衡技術

採用逆頻率採樣和PHI標準化技術優化訓練數據分佈

模型能力

圖像特徵提取

圖像分類

語義分割

深度估計

視覺語言模型集成

使用案例

計算機視覺

圖像分類

使用模型提取的圖像嵌入進行圖像分類任務

語義分割

利用模型的空間特徵進行像素級語義分割

多模態應用

視覺語言模型

將圖像特徵集成到大型語言模型中

🚀 RADIO模型

RADIO模型主要用於視覺特徵提取，能夠生成圖像嵌入，可被下游模型用於圖像分類等任務。C - RADIOv2有多種尺寸可供選擇，適用於商業和非商業用途。

🚀 快速開始

環境準備

確保你已經安裝了必要的庫：

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

加載模型和圖像處理器

hf_repo = "nvidia/C-RADIOv2-g"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

處理圖像

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

進行推理

summary, features = model(pixel_values)

✨ 主要特性

多尺寸可選：C - RADIOv2模型有Base（90M參數）、Large（320M參數）、Huge（653M參數）和Gigantic（1.1B參數）多種尺寸。
訓練優化：C - RADIOv2訓練了100萬步（比v1多40萬步），使用逆頻率採樣進行數據平衡，並使用PHI標準化進行教師分佈平衡。
全球可用：該模型的部署範圍為全球。
多用途：生成的嵌入可用於圖像級理解、密集處理以及集成到視覺 - 語言模型中。

📦 安裝指南

此部分文檔未提及具體安裝命令，暫不展示安裝指南。

💻 使用示例

基礎用法

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/C-RADIOv2-g"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

高級用法

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	神經網絡
網絡架構	視覺Transformer
輸入類型	圖像
輸入格式	RGB
輸入參數	二維
輸入相關其他屬性	圖像分辨率最高可達2048x2028，以16像素為增量
輸出類型	嵌入
輸出格式	張量
輸出參數	二維
輸出相關其他屬性	需要下游模型來利用圖像特徵

模型版本

C - RADIOv2 - B（90M參數）
C - RADIOv2 - L（320M參數）
C - RADIOv2 - H（653M參數）
C - RADIOv2 - G（1.8B參數）

模型鏈接

訓練和評估數據集

訓練數據集

名稱：NV - CC - Img - Text - Dataset
數據收集方法：自動
標註方法：不適用（無需標註）
屬性：包含7億張圖像

評估數據集

鏈接：ImageNet
數據收集方法：自動
標註方法：人工
屬性：該數據集涵蓋1000個對象類別，包含1,281,167張訓練圖像、50,000張驗證圖像和100,000張測試圖像。

推理

推理引擎：PyTorch
測試硬件：A100

倫理考慮

NVIDIA認為可信AI是一項共同責任，並制定了相關政策和實踐，以支持各種AI應用的開發。開發者在下載或使用該模型時，應與內部模型團隊合作，確保該模型符合相關行業和用例的要求，並解決意外的產品濫用問題。

如需瞭解該模型倫理考慮的更多詳細信息，請參閱以下模型卡片++可解釋性、偏差、安全與保障以及隱私子卡片。

請在此報告安全漏洞或NVIDIA AI相關問題。

偏差

領域	響應
模型設計和測試中受不利影響群體（受保護類別）的參與考慮：	無
為減輕不必要偏差所採取的措施：	無

可解釋性

領域	響應
預期應用和領域：	視覺特徵提取
模型類型：	視覺Transformer
預期用戶：	下游視覺應用開發者
輸出：	圖像嵌入
描述模型的工作原理：	該模型以圖像為輸入，通過多個Transformer塊處理圖像，並輸出摘要和補丁嵌入。
列出已測試以確保無論在哪些受不利影響群體上都能提供可比結果的群體：	不適用
技術限制：	該模型生成的圖像嵌入可被下游模型用於，例如，對圖像進行分類。下游模型必須經過訓練才能利用視覺嵌入。
是否驗證符合規定的NVIDIA質量標準：	是
性能指標：	圖像分類準確率、語義分割平均交併比。
潛在已知風險：	該模型僅在輸入分辨率範圍為256至2048（以16像素為增量）的情況下進行了測試。此外，生成的嵌入可能無法區分人類明顯可見的差異（例如，兩張顯示不同品種狗的圖像實際上可能產生非常相似的嵌入）。目標應用需要進行特定領域的評估。
許可：	NVIDIA開放模型許可協議

隱私

領域	響應
是否可生成或逆向工程個人數據？	無
是否使用個人數據創建此模型？	無
數據集多久審查一次？	每次發佈前
訓練中使用的所有數據集是否有來源證明？	是
數據標註（註釋、元數據）是否符合隱私法？	是
如果提出數據更正或刪除請求，數據是否符合數據主體的請求？	是

安全

領域	響應
模型應用：	生成視覺嵌入
描述關鍵生命影響（如果存在）：	不適用
用例限制：	遵守NVIDIA開放模型許可協議
模型和數據集限制：	應用最小特權原則（PoLP）限制數據集生成和模型開發的訪問權限。在訓練期間實施數據集訪問限制，並遵守數據集許可約束。