🚀 AM - RADIO: すべてのドメインを1つに統合する
Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov
NVIDIA Research
[AM - RADIO論文]
[PHI - S論文]
[BibTex][GitHubのサンプル]
[v2.5の技術レポート]
このプロジェクトでは、AM - RADIOというアルゴリズムを用いて、様々なドメインの情報を1つに統合する手法を提案しています。
🚀 クイックスタート
HuggingFace Hub
Pythonスクリプトからモデルを取得することができます。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/RADIO-L"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
💻 使用例
基本的な使用法
RADIOは2つのテンソルを含むタプルを返します。summary
はViTのcls_token
に似ており、画像全体の一般的な概念を表すことを目的としています。その形状は$(B,C)$で、$B$はバッチ次元、$C$はいくつかのチャンネル数です。spatial_features
はより局所的な内容を表し、セマンティックセグメンテーションなどの高密度タスクやLLMへの統合に適しています。その形状は$(B,T,D)$で、$T$は平坦化された空間トークン、$D$は空間特徴のチャンネルです。一般的に$C \neq D$です。
空間テンソル形式への変換は、モデルのダウンサンプリングサイズと入力テンソルの形状を組み合わせて行うことができます。'radio_v1'の場合、パッチサイズは14です。
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
結果のテンソルは、コンピュータビジョンモデルで一般的に見られる形状$(B,D,H,W)$になります。
RADIOv2.5の注意事項
RADIOv2.5の技術レポートを参照してください。
📄 ライセンス
RADIOのコードと重みは、NSCLv1 Licenseの下で公開されています。
引用方法
このリポジトリが役に立った場合は、スターを付けて引用を考慮してください。
@InProceedings{Ranzinger_2024_CVPR,
author = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
title = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2024},
pages = {12490-12500}
}
@misc{ranzinger2024phisdistributionbalancinglabelfree,
title={PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation},
author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
year={2024},
eprint={2410.01680},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01680},
}