R

RADIO L

nvidiaによって開発
AM-RADIOはNVIDIA研究所が開発した視覚基盤モデルで、集約型アーキテクチャにより複数領域の統一表現を実現し、様々なコンピュータビジョンタスクに適用可能です。
ダウンロード数 23.27k
リリース時間 : 7/23/2024

モデル概要

AM-RADIOは汎用的な視覚基盤モデルで、画像の全体的な概念表現と局所的な空間的特徴を同時に抽出でき、画像分類から意味セグメンテーションまで多様なコンピュータビジョンタスクをサポートします。

モデル特徴

二重出力表現
画像の全体的な概念表現(ViTのcls_tokenに類似)と局所的な空間的特徴を同時に出力し、異なる粒度の視覚タスク要求に対応
多領域統一
集約型アーキテクチャにより複数領域にわたる視覚特徴の統一表現を実現
柔軟な特徴変換
空間的特徴を標準(B,D,H,W)テンソル形式に変換可能で、様々なコンピュータビジョンプロセスへの統合が容易

モデル能力

画像全体の概念表現抽出
局所的な空間的特徴抽出
意味セグメンテーションサポート
LLM視覚特徴統合

使用事例

コンピュータビジョン
画像分類
summary特徴を利用した画像全体の分類
意味セグメンテーション
spatial_featuresを使用したピクセル単位の予測
マルチモーダルシステム
LLM視覚入力
大規模言語モデルに視覚特徴入力を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase