V

Vision Perceiver Conv

deepmindによって開発
ImageNetで事前学習された汎用視覚パーシバーモデルで、畳み込み前処理とトランスフォーマーアーキテクチャを採用し、画像分類タスクをサポート
ダウンロード数 7,127
リリース時間 : 3/2/2022

モデル概要

パーシバーIOはクロスモーダルトランスフォーマーモデルで、潜在ベクトルメカニズムにより入力サイズに依存しない計算効率を実現し、高解像度画像の処理に特に適している

モデル特徴

モーダル非依存アーキテクチャ
潜在ベクトルメカニズムを採用し、テキスト、画像、音声など様々なデータタイプに適用可能
効率的な計算
自己注意計算は固定数の潜在ベクトルのみに依存し、入力データ規模の影響を受けない
ピクセルレベル処理
ViTのような画像パッチ前処理なしで生のピクセル値を直接処理
柔軟なデコード
デコードクエリメカニズムにより任意のサイズと意味の構造化データを出力可能

モデル能力

画像分類
視覚特徴抽出

使用事例

コンピュータビジョン
画像分類
入力画像を1000クラスで分類識別
ImageNet-1kで82.1% Top-1精度を達成
特徴抽出
下流タスクのファインチューニング用に画像特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase