RADIO開源視覺特徵提取模型 - 免費將圖像轉為嵌入向量，支持下游任務

首頁

RADIO

由nvidia開發

由NVIDIA研發的視覺特徵提取模型，可將圖像轉換為嵌入向量供下游任務使用

Transformers

#多分辨率視覺特徵提取 #跨域通用嵌入 #動態塊尺寸適配

下載量 5,166

發布時間 : 12/11/2023

模型概述

基於視覺Transformer架構的圖像特徵提取模型，支持靈活輸入分辨率，生成的嵌入向量適用於圖像分類、語義分割等計算機視覺任務

模型特點

靈活輸入分辨率

支持最高2048x2028分辨率輸入（以16像素為增量），適應不同應用場景需求

雙輸出特徵

同時輸出全局特徵(summary)和局部空間特徵(spatial_features)，滿足不同任務需求

大規模預訓練

基於128億張互聯網圖像的DataComp數據集預訓練，具有強大的特徵提取能力

模型能力

圖像特徵提取

圖像分類

語義分割

視覺嵌入生成

使用案例

計算機視覺

圖像分類

使用RADIO提取的圖像嵌入向量作為下游分類器的輸入

語義分割

利用RADIO的空間特徵進行密集預測任務

🚀 AM - RADIO：將所有領域歸為一體

AM - RADIO 是一款用於視覺特徵提取的模型，能夠生成圖像嵌入，供下游模型進行圖像分類等任務。該模型僅用於研究和開發。

🚀 快速開始

從 HuggingFace 拉取模型

要從 HuggingFace 拉取模型，你需要先登錄：

huggingface-cli login

然後可以在 Python 腳本中拉取模型：

from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)

或者，你可以指定訪問令牌：

access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)

✨ 主要特性

能夠執行視覺特徵提取，生成可用於下游模型進行圖像分類的圖像嵌入。
模型輸入維度靈活，支持一定範圍內的輸入尺寸。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關代碼倉庫中的說明。

💻 使用示例

基礎用法

RADIO 將返回一個包含兩個張量的元組。summary 類似於 ViT 中的 cls_token，用於表示整個圖像的總體概念，形狀為 $(B,C)$，其中 $B$ 是批次維度，$C$ 是通道數。spatial_features 表示更局部的內容，適用於密集任務（如語義分割）或集成到 LLM 中，形狀為 $(B,T,D)$，其中 $T$ 是扁平化的空間令牌，$D$ 是空間特徵的通道數。通常情況下 $C \neq D$。

高級用法

將 spatial_features 轉換為空間張量格式，可以結合模型的下采樣大小和輸入張量形狀來完成。對於 'radio_v1'，補丁大小為 14：

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

得到的張量形狀為 $(B,D,H,W)$，這是計算機視覺模型中常見的形狀。

📚 詳細文檔

模型概述

該模型由 Mike Ranzinger、Greg Heinrich、Jan Kautz、Pavlo Molchanov 開發，由 NVIDIA Research 提供。它主要用於視覺特徵提取，僅用於研究和開發。

模型架構

架構類型：神經網絡
網絡架構：視覺變換器

輸入

輸入類型：圖像
輸入格式：紅、綠、藍（RGB）
輸入參數：二維（2D）
其他輸入相關屬性：圖像分辨率最高可達 2048x2028，以 16 像素為增量

輸出

輸出類型：嵌入
輸出格式：張量
輸出參數：2D
其他輸出相關屬性：需要下游模型來利用圖像特徵

軟件集成

運行時引擎：TAO - 24.10
支持的硬件微架構兼容性：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
首選/支持的操作系統：Linux、Linux 4 Tegra、QNX、Windows

預訓練模型

可參考 model_results.csv 瞭解模型版本及其指標。鏈接：https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6

訓練、測試和評估數據集

訓練數據集

鏈接：https://www.datacomp.ai/
數據收集方法：自動化
標註方法：不適用（不需要標籤）
屬性：使用 Common Crawl 從互聯網收集的 128 億張不同圖像

評估數據集

鏈接：ImageNet
數據收集方法：自動化
標註方法：人工
屬性：該數據集涵蓋 1000 個對象類別，包含 1,281,167 張訓練圖像、50,000 張驗證圖像和 100,000 張測試圖像

推理

引擎：PyTorch
測試硬件：A100

引用

如果你發現這個倉庫有用，請考慮給它加星並引用：

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490 - 12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}

倫理考量（僅適用於 NVIDIA 模型）

NVIDIA 認為可信 AI 是一項共同責任，我們已經制定了政策和實踐，以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用該模型時，開發者應與內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決不可預見的產品濫用問題。

🔧 技術細節

RADIOv1 注意事項

我們訓練的這個模型在輸入維度上具有靈活性，它支持寬度和高度在 $[14, 1008]$ 範圍內的輸入，只要兩個軸都能被 14 整除。我們發現，在 $H = W = 378$ 時，摘要令牌效果最佳（儘管 $[192, 448]$ 範圍也效果良好）。對於空間任務，我們使用 $H = W = 518$ 進行語義分割的線性探測，對於更高分辨率的任務可能效果更好。當分辨率達到 1008 時，為了獲得最佳結果，模型可能需要在該分辨率下進行額外的微調。

雖然不要求 $H = W$，但我們尚未在這種設置下專門訓練或測試該模型。