🚀 AM - RADIO: すべてのドメインを1つに統合する
このモデルは、画像の特徴抽出を行います。例えば、RADIOは画像埋め込みを生成し、下流のモデルが画像分類に使用することができます。このモデルは研究開発用のみです。
🚀 クイックスタート
このモデルを使用するには、まずHuggingFaceにログインする必要があります。
huggingface-cli login
次に、Pythonスクリプトからモデルを取得できます。
from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)
または、アクセストークンを指定することもできます。
access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)
✨ 主な機能
- 画像の特徴抽出を行い、画像埋め込みを生成します。
- 下流のモデルが画像分類に使用することができます。
📦 インストール
HuggingFaceからモデルを取得するには、上記のクイックスタートの手順を参照してください。
💻 使用例
基本的な使用法
from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)
高度な使用法
RADIOは2つのテンソルを含むタプルを返します。summary
はViTのcls_token
に似ており、画像全体の一般的な概念を表します。形状は$(B,C)$で、$B$はバッチ次元、$C$はいくつかのチャネル数です。spatial_features
はより局所的な内容を表し、セマンティックセグメンテーションなどの密なタスクやLLMへの統合に適しています。形状は$(B,T,D)$で、$T$は平坦化された空間トークン、$D$は空間特徴のチャネルです。一般的に$C \neq D$です。
空間テンソル形式に変換するには、モデルのダウンサンプリングサイズと入力テンソルの形状を組み合わせて行うことができます。'radio_v1'の場合、パッチサイズは14です。
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
結果のテンソルは、コンピュータビジョンモデルで一般的に見られるように、形状$(B,D,H,W)$になります。
📚 ドキュメント
モデル概要
- 著者: Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov
- 所属: NVIDIA Research
参考文献
モデルアーキテクチャ
プロパティ |
詳細 |
アーキテクチャタイプ |
ニューラルネットワーク |
ネットワークアーキテクチャ |
Vision Transformer |
入力タイプ |
画像 |
入力形式 |
赤、緑、青 (RGB) |
入力パラメータ |
2次元 (2D) |
入力に関連するその他のプロパティ |
画像解像度は最大2048x2028で、16ピクセル刻み |
出力タイプ |
埋め込み |
出力形式 |
テンソル |
出力パラメータ |
2D |
出力に関連するその他のプロパティ |
画像特徴を活用するには下流のモデルが必要 |
ランタイムエンジン |
TAO - 24.10 |
サポートされるハードウェアマイクロアーキテクチャ互換性 |
NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta |
推奨/サポートされるオペレーティングシステム |
Linux、Linux 4 Tegra、QNX、Windows |
事前学習済みモデル
モデルのバージョンとそのメトリクスについては、model_results.csv
を参照してください。
リンク: https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6
RADIOv1の注意事項
このモデルは入力次元に柔軟性があるように学習されています。幅と高さが両方とも14で割り切れる限り、$[14, 1008]$の範囲の入力をサポートします。要約トークンは$H = W = 378$で最適に機能することがわかっています(ただし、$[192, 448]$の範囲でもうまく機能します)。空間タスクの場合は、セマンティックセグメンテーションの線形プロービングに$H = W = 518$を使用しており、より高解像度のタスクではより良い結果が得られる可能性があります。1008まで上げる場合、最適な結果を得るにはその解像度で追加の微調整が必要になる場合があります。
$H = W$である必要はありませんが、この設定ではモデルを具体的に学習またはテストしていません。
トレーニング、テスト、評価データセット
トレーニングデータセット
- リンク: https://www.datacomp.ai/
- データ収集方法: 自動
- ラベリング方法: 該当なし(ラベル不要)
- プロパティ: インターネットからCommon Crawlを使用して収集された128億の多様な画像
評価データセット
- リンク: ImageNet
- データ収集方法: 自動
- ラベリング方法: 人間
- プロパティ: このデータセットは1000のオブジェクトクラスをカバーし、1,281,167のトレーニング画像、50,000の検証画像、100,000のテスト画像を含みます。
推論
- エンジン: PyTorch
- テストハードウェア: A100
引用
このリポジトリが役に立った場合は、スターを付けて引用していただけると幸いです。
@InProceedings{Ranzinger_2024_CVPR,
author = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
title = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2024},
pages = {12490 - 12500}
}
@misc{ranzinger2024phisdistributionbalancinglabelfree,
title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation},
author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
year={2024},
eprint={2410.01680},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01680},
}
倫理的な考慮事項(NVIDIAモデルのみ)
NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。
📄 ライセンス
RADIOのコードと重みは、NSCLv1 Licenseの下で公開されています。