V

Vision Perceiver Fourier

deepmindによって開発
Perceiver IOは、複数のモーダルデータを処理できる汎用Transformerアーキテクチャです。このモデルは画像分類タスク用に設計され、ImageNetデータセットで事前学習されています。
ダウンロード数 1,168
リリース時間 : 3/2/2022

モデル概要

このモデルは、クロス注意機構を使用して生のピクセル値を処理し、画像のパッチ分割を必要とせず、固定フーリエ位置埋め込みによって効率的な画像分類を実現します。

モデル特徴

モーダル非依存アーキテクチャ
コア設計は、テキスト、画像、音声などのさまざまなデータタイプに適用できます。
効率的な注意機構
潜在ベクトルを通じて、計算複雑度が入力サイズに依存しない自己注意を実現します。
生のピクセル処理
ViTのような画像のパッチ分割前処理を必要とせず、生のピクセル値を直接処理します。
柔軟なデコード
デコードクエリ機構により、さまざまな出力形式とタスクをサポートします。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
入力画像を1000クラスのImageNet分類に分類します。
ImageNet - 1kで79.0のトップ1精度
転移学習
下流のビジュアルタスクの事前学習モデルとして使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase