開源RADIO-L視覺基礎模型 - 適用於各類計算機視覺任務，免費部署！

首頁

RADIO L

由nvidia開發

AM-RADIO是NVIDIA研究院開發的視覺基礎模型，採用聚合式架構實現多領域統一表徵，適用於各類計算機視覺任務。

圖像分割

Transformers

#多域視覺表徵 #密集特徵提取 #零樣本遷移

下載量 23.27k

發布時間 : 7/23/2024

模型概述

AM-RADIO是一個通用的視覺基礎模型，能夠同時提取圖像的整體概念表徵和局部空間特徵，支持從圖像分類到語義分割等多種計算機視覺任務。

模型特點

雙輸出表徵

同時輸出圖像整體概念表徵（類似ViT的cls_token）和局部空間特徵，適應不同粒度的視覺任務需求

多領域統一

通過聚合式架構實現跨領域的視覺特徵統一表徵

靈活特徵轉換

支持將空間特徵轉換為標準(B,D,H,W)張量格式，便於集成到各類計算機視覺流程中

模型能力

圖像整體概念表徵提取

局部空間特徵提取

語義分割支持

LLM視覺特徵集成

使用案例

計算機視覺

圖像分類

利用summary特徵進行圖像整體分類

語義分割

使用spatial_features進行像素級預測

多模態系統

LLM視覺輸入

為大型語言模型提供視覺特徵輸入

🚀 AM - RADIO：將所有領域歸為一體

AM - RADIO 是一種創新的模型，它能夠將多個領域的信息進行整合，為計算機視覺任務提供更強大的支持，在圖像理解等方面具有重要價值。

🚀 快速開始

HuggingFace Hub

你可以從 Python 腳本中拉取模型：

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/RADIO-L"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

💻 使用示例

基礎用法

RADIO 將返回一個包含兩個張量的元組。summary 類似於 ViT 中的 cls_token，用於表示整個圖像的一般概念。它的形狀為 $(B,C)$，其中 $B$ 是批量維度，$C$ 是通道數。spatial_features 表示更局部的內容，適用於密集任務（如語義分割）或集成到 LLM 中。它的形狀為 $(B,T,D)$，其中 $T$ 是扁平化的空間令牌，$D$ 是空間特徵的通道數。請注意，一般情況下 $C \neq D$。

# RADIO使用示例
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/RADIO-L"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

高級用法

將其轉換為空間張量格式可以使用模型的下采樣大小，並結合輸入張量的形狀。對於 'radio_v1'，補丁大小為 14。

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

得到的張量將具有 $(B,D,H,W)$ 的形狀，這在計算機視覺模型中很常見。

📚 詳細文檔

RADIOv2.5 說明

請參閱 RADIOv2.5 技術報告。

📄 許可證

RADIO 的代碼和權重根據 NSCLv1 許可證發佈。

📚 引用信息

如果你發現這個倉庫很有用，請考慮給它加星並引用：

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490-12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}

作者信息

Mike Ranzinger
Greg Heinrich
Jan Kautz
Pavlo Molchanov

研究機構

NVIDIA Research