🚀 RADIO模型
RADIO模型主要用於視覺特徵提取,能夠生成圖像嵌入,可被下游模型用於圖像分類等任務。C - RADIOv2有多種尺寸可供選擇,適用於商業和非商業用途。
🚀 快速開始
環境準備
確保你已經安裝了必要的庫:
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
加載模型和圖像處理器
hf_repo = "nvidia/C-RADIOv2-g"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
處理圖像
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
進行推理
summary, features = model(pixel_values)
✨ 主要特性
- 多尺寸可選:C - RADIOv2模型有Base(90M參數)、Large(320M參數)、Huge(653M參數)和Gigantic(1.1B參數)多種尺寸。
- 訓練優化:C - RADIOv2訓練了100萬步(比v1多40萬步),使用逆頻率採樣進行數據平衡,並使用PHI標準化進行教師分佈平衡。
- 全球可用:該模型的部署範圍為全球。
- 多用途:生成的嵌入可用於圖像級理解、密集處理以及集成到視覺 - 語言模型中。
📦 安裝指南
此部分文檔未提及具體安裝命令,暫不展示安裝指南。
💻 使用示例
基礎用法
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-g"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
高級用法
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
神經網絡 |
網絡架構 |
視覺Transformer |
輸入類型 |
圖像 |
輸入格式 |
RGB |
輸入參數 |
二維 |
輸入相關其他屬性 |
圖像分辨率最高可達2048x2028,以16像素為增量 |
輸出類型 |
嵌入 |
輸出格式 |
張量 |
輸出參數 |
二維 |
輸出相關其他屬性 |
需要下游模型來利用圖像特徵 |
模型版本
- C - RADIOv2 - B(90M參數)
- C - RADIOv2 - L(320M參數)
- C - RADIOv2 - H(653M參數)
- C - RADIOv2 - G(1.8B參數)
模型鏈接
訓練和評估數據集
訓練數據集
- 名稱:NV - CC - Img - Text - Dataset
- 數據收集方法:自動
- 標註方法:不適用(無需標註)
- 屬性:包含7億張圖像
評估數據集
- 鏈接:ImageNet
- 數據收集方法:自動
- 標註方法:人工
- 屬性:該數據集涵蓋1000個對象類別,包含1,281,167張訓練圖像、50,000張驗證圖像和100,000張測試圖像。
推理
倫理考慮
NVIDIA認為可信AI是一項共同責任,並制定了相關政策和實踐,以支持各種AI應用的開發。開發者在下載或使用該模型時,應與內部模型團隊合作,確保該模型符合相關行業和用例的要求,並解決意外的產品濫用問題。
如需瞭解該模型倫理考慮的更多詳細信息,請參閱以下模型卡片++可解釋性、偏差、安全與保障以及隱私子卡片。
請在此報告安全漏洞或NVIDIA AI相關問題。
偏差
領域 |
響應 |
模型設計和測試中受不利影響群體(受保護類別)的參與考慮: |
無 |
為減輕不必要偏差所採取的措施: |
無 |
可解釋性
領域 |
響應 |
預期應用和領域: |
視覺特徵提取 |
模型類型: |
視覺Transformer |
預期用戶: |
下游視覺應用開發者 |
輸出: |
圖像嵌入 |
描述模型的工作原理: |
該模型以圖像為輸入,通過多個Transformer塊處理圖像,並輸出摘要和補丁嵌入。 |
列出已測試以確保無論在哪些受不利影響群體上都能提供可比結果的群體: |
不適用 |
技術限制: |
該模型生成的圖像嵌入可被下游模型用於,例如,對圖像進行分類。下游模型必須經過訓練才能利用視覺嵌入。 |
是否驗證符合規定的NVIDIA質量標準: |
是 |
性能指標: |
圖像分類準確率、語義分割平均交併比。 |
潛在已知風險: |
該模型僅在輸入分辨率範圍為256至2048(以16像素為增量)的情況下進行了測試。此外,生成的嵌入可能無法區分人類明顯可見的差異(例如,兩張顯示不同品種狗的圖像實際上可能產生非常相似的嵌入)。目標應用需要進行特定領域的評估。 |
許可: |
NVIDIA開放模型許可協議 |
隱私
領域 |
響應 |
是否可生成或逆向工程個人數據? |
無 |
是否使用個人數據創建此模型? |
無 |
數據集多久審查一次? |
每次發佈前 |
訓練中使用的所有數據集是否有來源證明? |
是 |
數據標註(註釋、元數據)是否符合隱私法? |
是 |
如果提出數據更正或刪除請求,數據是否符合數據主體的請求? |
是 |
安全
領域 |
響應 |
模型應用: |
生成視覺嵌入 |
描述關鍵生命影響(如果存在): |
不適用 |
用例限制: |
遵守NVIDIA開放模型許可協議 |
模型和數據集限制: |
應用最小特權原則(PoLP)限制數據集生成和模型開發的訪問權限。在訓練期間實施數據集訪問限制,並遵守數據集許可約束。 |
🔧 技術細節
C - RADIOv2訓練了100萬步(比v1多40萬步),使用逆頻率採樣進行數據平衡,並使用PHI標準化進行教師分佈平衡。
📄 許可證
使用此模型受NVIDIA開放模型許可協議的約束。