オープンソースのRADIO - Lビジュアル基础モデル - 様々なコンピュータビジョンタスクに适し、无料でデプロイ可能！

ホーム

RADIO L

nvidiaによって開発

AM-RADIOはNVIDIA研究所が開発した視覚基盤モデルで、集約型アーキテクチャにより複数領域の統一表現を実現し、様々なコンピュータビジョンタスクに適用可能です。

画像セグメンテーション

Transformers

#多領域視覚表現 #高密度特徴抽出 #ゼロショット転移

ダウンロード数 23.27k

リリース時間 : 7/23/2024

モデル概要

AM-RADIOは汎用的な視覚基盤モデルで、画像の全体的な概念表現と局所的な空間的特徴を同時に抽出でき、画像分類から意味セグメンテーションまで多様なコンピュータビジョンタスクをサポートします。

モデル特徴

二重出力表現

画像の全体的な概念表現（ViTのcls_tokenに類似）と局所的な空間的特徴を同時に出力し、異なる粒度の視覚タスク要求に対応

多領域統一

集約型アーキテクチャにより複数領域にわたる視覚特徴の統一表現を実現

柔軟な特徴変換

空間的特徴を標準(B,D,H,W)テンソル形式に変換可能で、様々なコンピュータビジョンプロセスへの統合が容易

モデル能力

画像全体の概念表現抽出

局所的な空間的特徴抽出

意味セグメンテーションサポート

LLM視覚特徴統合

使用事例

コンピュータビジョン

画像分類

summary特徴を利用した画像全体の分類

意味セグメンテーション

spatial_featuresを使用したピクセル単位の予測

マルチモーダルシステム

LLM視覚入力

大規模言語モデルに視覚特徴入力を提供

🚀 AM - RADIO: すべてのドメインを1つに統合する

Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov

NVIDIA Research

[AM - RADIO論文] [PHI - S論文] [BibTex][GitHubのサンプル] [v2.5の技術レポート]

このプロジェクトでは、AM - RADIOというアルゴリズムを用いて、様々なドメインの情報を1つに統合する手法を提案しています。

🚀 クイックスタート

HuggingFace Hub

Pythonスクリプトからモデルを取得することができます。

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/RADIO-L"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

💻 使用例

基本的な使用法

RADIOは2つのテンソルを含むタプルを返します。summaryはViTのcls_tokenに似ており、画像全体の一般的な概念を表すことを目的としています。その形状は$(B,C)$で、$B$はバッチ次元、$C$はいくつかのチャンネル数です。spatial_featuresはより局所的な内容を表し、セマンティックセグメンテーションなどの高密度タスクやLLMへの統合に適しています。その形状は$(B,T,D)$で、$T$は平坦化された空間トークン、$D$は空間特徴のチャンネルです。一般的に$C \neq D$です。

空間テンソル形式への変換は、モデルのダウンサンプリングサイズと入力テンソルの形状を組み合わせて行うことができます。'radio_v1'の場合、パッチサイズは14です。

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

結果のテンソルは、コンピュータビジョンモデルで一般的に見られる形状$(B,D,H,W)$になります。

RADIOv2.5の注意事項

RADIOv2.5の技術レポートを参照してください。

📄 ライセンス

RADIOのコードと重みは、NSCLv1 Licenseの下で公開されています。

引用方法

このリポジトリが役に立った場合は、スターを付けて引用を考慮してください。

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490-12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}