V

Vision Perceiver Learned

deepmindによって開発
ImageNetで事前学習された汎用ビジュアルパーサーバーモデルで、学習型位置埋め込みを用いて画像入力を処理します。
ダウンロード数 1,894
リリース時間 : 3/2/2022

モデル概要

このモデルは、あらゆるモーダルに適用可能なTransformerエンコーダーで、特に画像分類タスクに設計されており、ピクセル値から直接画像表現を学習することができます。

モデル特徴

モーダル非依存アーキテクチャ
テキスト、画像、音声、ビデオなどの様々なデータモーダルに適用可能です。
効率的な注意機構
潜在ベクトルを使用して計算の複雑さを低減し、注意機構が入力サイズの制約を受けないようにします。
学習型位置埋め込み
学習された1次元の位置埋め込みのみを使用し、画像の2次元構造の事前知識に依存しません。
柔軟なデコード機構
デコードクエリ機構により、潜在ベクトルを任意のサイズと意味の出力にデコードすることができます。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
入力画像を1000カテゴリに分類します。
ImageNet - 1kでTop - 1精度72.7%を達成しました。
特徴抽出
下流タスクのために画像特徴を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase