🚀 C-RADIO
このモデルは、画像の視覚的特徴抽出を行います。例えば、RADIOは画像埋め込みを生成し、下流のモデルが画像分類に利用することができます。
🚀 クイックスタート
このモデルは、画像の視覚的特徴抽出を行うために使用できます。以下に使用例を示します。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIO"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
高度な使用法
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
✨ 主な機能
- 視覚的特徴抽出を行い、画像埋め込みを生成します。
- Vision Transformerアーキテクチャを使用しています。
- 最大2048x2028の画像解像度をサポートします。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。必要な依存関係をインストールすることで使用できます。
📚 ドキュメント
モデル概要
- アーキテクチャタイプ: ニューラルネットワーク
- ネットワークアーキテクチャ: Vision Transformer
入力
- 入力タイプ: 画像
- 入力形式: [0, 1]の範囲のRGBピクセル値
- 入力パラメータ: 2次元
- その他の入力関連プロパティ: 画像解像度は最大2048x2028で、16ピクセル刻み
出力
- 出力タイプ: 埋め込み
- 出力形式: テンソル
- 出力パラメータ: 2次元
- その他の出力関連プロパティ: 画像特徴を活用するために下流のモデルが必要
利用方法
RADIOは2つのテンソルを含むタプルを返します。summary
はViTのcls_token
に似ており、画像全体の一般的な概念を表します。spatial_features
はより局所的な内容を表し、セマンティックセグメンテーションなどの密なタスクやLLMへの統合に適しています。
ソフトウェア統合
- ランタイムエンジン: TAO - 24.10
- サポートされるハードウェアマイクロアーキテクチャ互換性: NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
- 推奨/サポートされるオペレーティングシステム: Linux、Linux 4 Tegra、QNX、Windows
トレーニング、テスト、評価データセット
- トレーニングデータセット: NV - CC - Img - Text - Dataset(7億枚の画像)
- 評価データセット: ImageNet(1000のオブジェクトクラス、1,281,167枚のトレーニング画像、50,000枚の検証画像、100,000枚のテスト画像)
推論
- エンジン: PyTorch
- テストハードウェア: A100
倫理的考慮事項(NVIDIAモデルのみ)
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対処するようにする必要があります。ユーザーは、特定のユースケースに対する安全性と品質を評価し、適切な追加のガードレールを構築する必要があります。
セキュリティの脆弱性やNVIDIA AIに関する懸念事項は、こちらから報告してください。
🔧 技術詳細
このモデルはVision Transformerアーキテクチャを使用しており、画像の視覚的特徴抽出を行います。入力として画像を受け取り、出力として画像の埋め込みを生成します。
📄 ライセンス
このモデルは、NVIDIA Open Model License Agreementに基づいて管理されています。
参考論文
モデル情報
属性 |
详情 |
モデルタイプ |
ニューラルネットワーク |
トレーニングデータ |
NV - CC - Img - Text - Dataset(7億枚の画像) |
アーキテクチャ |
Vision Transformer |
入力タイプ |
画像 |
入力形式 |
[0, 1]の範囲のRGBピクセル値 |
出力タイプ |
埋め込み |
出力形式 |
テンソル |
バージョン |
C - RADIO |
リンク |
https://huggingface.co/nvidia/C - RADIO |