RADIOオープンソースビジュアル特徴抽出モデル - 画像を無料で埋め込みベクトルに変換し、下流タスクをサポート

ホーム

RADIO

nvidiaによって開発

NVIDIAが開発した視覚特徴抽出モデルで、画像を埋め込みベクトルに変換し下流タスクに利用可能

Transformers

#マルチ解像度視覚特徴抽出 #クロスドメイン汎用埋め込み #動的ブロックサイズ適応

ダウンロード数 5,166

リリース時間 : 12/11/2023

モデル概要

視覚Transformerアーキテクチャに基づく画像特徴抽出モデルで、柔軟な入力解像度をサポートし、生成された埋め込みベクトルは画像分類、セマンティックセグメンテーションなどのコンピュータビジョンタスクに適応

モデル特徴

柔軟な入力解像度

最大2048x2028解像度入力をサポート（16ピクセル単位）、様々なアプリケーションシナリオのニーズに対応

二重出力特徴

グローバル特徴(summary)と局所空間特徴(spatial_features)を同時出力し、異なるタスク要件を満たす

大規模事前学習

128億枚のインターネット画像からなるDataCompデータセットで事前学習され、強力な特徴抽出能力を有する

モデル能力

画像特徴抽出

画像分類

セマンティックセグメンテーション

視覚埋め込み生成

使用事例

コンピュータビジョン

画像分類

RADIOで抽出した画像埋め込みベクトルを下流分類器の入力として使用

セマンティックセグメンテーション

RADIOの空間特徴を利用して密な予測タスクを実行

🚀 AM - RADIO: すべてのドメインを1つに統合する

このモデルは、画像の特徴抽出を行います。例えば、RADIOは画像埋め込みを生成し、下流のモデルが画像分類に使用することができます。このモデルは研究開発用のみです。

🚀 クイックスタート

このモデルを使用するには、まずHuggingFaceにログインする必要があります。

huggingface-cli login

次に、Pythonスクリプトからモデルを取得できます。

from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)

または、アクセストークンを指定することもできます。

access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)

✨ 主な機能

画像の特徴抽出を行い、画像埋め込みを生成します。
下流のモデルが画像分類に使用することができます。

📦 インストール

HuggingFaceからモデルを取得するには、上記のクイックスタートの手順を参照してください。

💻 使用例

基本的な使用法

from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)

高度な使用法

RADIOは2つのテンソルを含むタプルを返します。summaryはViTのcls_tokenに似ており、画像全体の一般的な概念を表します。形状は$(B,C)$で、$B$はバッチ次元、$C$はいくつかのチャネル数です。spatial_featuresはより局所的な内容を表し、セマンティックセグメンテーションなどの密なタスクやLLMへの統合に適しています。形状は$(B,T,D)$で、$T$は平坦化された空間トークン、$D$は空間特徴のチャネルです。一般的に$C \neq D$です。

空間テンソル形式に変換するには、モデルのダウンサンプリングサイズと入力テンソルの形状を組み合わせて行うことができます。'radio_v1'の場合、パッチサイズは14です。

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

結果のテンソルは、コンピュータビジョンモデルで一般的に見られるように、形状$(B,D,H,W)$になります。

📚 ドキュメント

モデル概要

著者: Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov
所属: NVIDIA Research

参考文献

モデルアーキテクチャ

プロパティ	詳細
アーキテクチャタイプ	ニューラルネットワーク
ネットワークアーキテクチャ	Vision Transformer
入力タイプ	画像
入力形式	赤、緑、青 (RGB)
入力パラメータ	2次元 (2D)
入力に関連するその他のプロパティ	画像解像度は最大2048x2028で、16ピクセル刻み
出力タイプ	埋め込み
出力形式	テンソル
出力パラメータ	2D
出力に関連するその他のプロパティ	画像特徴を活用するには下流のモデルが必要
ランタイムエンジン	TAO - 24.10
サポートされるハードウェアマイクロアーキテクチャ互換性	NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
推奨/サポートされるオペレーティングシステム	Linux、Linux 4 Tegra、QNX、Windows

事前学習済みモデル

モデルのバージョンとそのメトリクスについては、model_results.csvを参照してください。 リンク: https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6

RADIOv1の注意事項

このモデルは入力次元に柔軟性があるように学習されています。幅と高さが両方とも14で割り切れる限り、$[14, 1008]$の範囲の入力をサポートします。要約トークンは$H = W = 378$で最適に機能することがわかっています（ただし、$[192, 448]$の範囲でもうまく機能します）。空間タスクの場合は、セマンティックセグメンテーションの線形プロービングに$H = W = 518$を使用しており、より高解像度のタスクではより良い結果が得られる可能性があります。1008まで上げる場合、最適な結果を得るにはその解像度で追加の微調整が必要になる場合があります。

$H = W$である必要はありませんが、この設定ではモデルを具体的に学習またはテストしていません。

トレーニング、テスト、評価データセット

トレーニングデータセット

リンク: https://www.datacomp.ai/
データ収集方法: 自動
ラベリング方法: 該当なし（ラベル不要）
プロパティ: インターネットからCommon Crawlを使用して収集された128億の多様な画像

評価データセット

リンク: ImageNet
データ収集方法: 自動
ラベリング方法: 人間
プロパティ: このデータセットは1000のオブジェクトクラスをカバーし、1,281,167のトレーニング画像、50,000の検証画像、100,000のテスト画像を含みます。

推論

エンジン: PyTorch
テストハードウェア: A100

引用

このリポジトリが役に立った場合は、スターを付けて引用していただけると幸いです。

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490 - 12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}

倫理的な考慮事項（NVIDIAモデルのみ）

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。