🚀 AM - RADIO:將所有領域歸為一體
AM - RADIO 是一款用於視覺特徵提取的模型,能夠生成圖像嵌入,供下游模型進行圖像分類等任務。該模型僅用於研究和開發。
🚀 快速開始
從 HuggingFace 拉取模型
要從 HuggingFace 拉取模型,你需要先登錄:
huggingface-cli login
然後可以在 Python 腳本中拉取模型:
from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)
或者,你可以指定訪問令牌:
access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)
✨ 主要特性
- 能夠執行視覺特徵提取,生成可用於下游模型進行圖像分類的圖像嵌入。
- 模型輸入維度靈活,支持一定範圍內的輸入尺寸。
📦 安裝指南
文檔未提及具體安裝步驟,可參考相關代碼倉庫中的說明。
💻 使用示例
基礎用法
RADIO 將返回一個包含兩個張量的元組。summary
類似於 ViT 中的 cls_token
,用於表示整個圖像的總體概念,形狀為 $(B,C)$,其中 $B$ 是批次維度,$C$ 是通道數。spatial_features
表示更局部的內容,適用於密集任務(如語義分割)或集成到 LLM 中,形狀為 $(B,T,D)$,其中 $T$ 是扁平化的空間令牌,$D$ 是空間特徵的通道數。通常情況下 $C \neq D$。
高級用法
將 spatial_features
轉換為空間張量格式,可以結合模型的下采樣大小和輸入張量形狀來完成。對於 'radio_v1',補丁大小為 14:
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
得到的張量形狀為 $(B,D,H,W)$,這是計算機視覺模型中常見的形狀。
📚 詳細文檔
模型概述
該模型由 Mike Ranzinger、Greg Heinrich、Jan Kautz、Pavlo Molchanov 開發,由 NVIDIA Research 提供。它主要用於視覺特徵提取,僅用於研究和開發。
模型架構
輸入
- 輸入類型:圖像
- 輸入格式:紅、綠、藍(RGB)
- 輸入參數:二維(2D)
- 其他輸入相關屬性:圖像分辨率最高可達 2048x2028,以 16 像素為增量
輸出
- 輸出類型:嵌入
- 輸出格式:張量
- 輸出參數:2D
- 其他輸出相關屬性:需要下游模型來利用圖像特徵
軟件集成
- 運行時引擎:TAO - 24.10
- 支持的硬件微架構兼容性:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
- 首選/支持的操作系統:Linux、Linux 4 Tegra、QNX、Windows
預訓練模型
可參考 model_results.csv
瞭解模型版本及其指標。
鏈接:https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6
訓練、測試和評估數據集
訓練數據集
- 鏈接:https://www.datacomp.ai/
- 數據收集方法:自動化
- 標註方法:不適用(不需要標籤)
- 屬性:使用 Common Crawl 從互聯網收集的 128 億張不同圖像
評估數據集
- 鏈接:ImageNet
- 數據收集方法:自動化
- 標註方法:人工
- 屬性:該數據集涵蓋 1000 個對象類別,包含 1,281,167 張訓練圖像、50,000 張驗證圖像和 100,000 張測試圖像
推理
引用
如果你發現這個倉庫有用,請考慮給它加星並引用:
@InProceedings{Ranzinger_2024_CVPR,
author = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
title = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2024},
pages = {12490 - 12500}
}
@misc{ranzinger2024phisdistributionbalancinglabelfree,
title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation},
author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
year={2024},
eprint={2410.01680},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01680},
}
倫理考量(僅適用於 NVIDIA 模型)
NVIDIA 認為可信 AI 是一項共同責任,我們已經制定了政策和實踐,以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用該模型時,開發者應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
🔧 技術細節
RADIOv1 注意事項
我們訓練的這個模型在輸入維度上具有靈活性,它支持寬度和高度在 $[14, 1008]$ 範圍內的輸入,只要兩個軸都能被 14 整除。我們發現,在 $H = W = 378$ 時,摘要令牌效果最佳(儘管 $[192, 448]$ 範圍也效果良好)。對於空間任務,我們使用 $H = W = 518$ 進行語義分割的線性探測,對於更高分辨率的任務可能效果更好。當分辨率達到 1008 時,為了獲得最佳結果,模型可能需要在該分辨率下進行額外的微調。
雖然不要求 $H = W$,但我們尚未在這種設置下專門訓練或測試該模型。
📄 許可證
RADIO 代碼和權重根據 NSCLv1 許可證 發佈。
🔍 參考資料