V

Videomae Base Short

MCG-NJUによって開発
VideoMAEはマスク自己エンコーダー(MAE)に基づくビデオ自己教師あり事前学習モデルで、マスクパッチ予測を通じてビデオ内部表現を学習し、下流のビデオ分類などのタスクに適しています。
ダウンロード数 886
リリース時間 : 7/7/2022

モデル概要

このモデルはマスク自己エンコーダーをビデオ領域に拡張したもので、標準的な視覚トランスフォーマーアーキテクチャを採用し、上部にデコーダーを追加してマスクされたパッチのピクセル値を予測します。主にビデオ特徴抽出と下流タスクの微調整に使用されます。

モデル特徴

ビデオ自己教師あり学習
マスク自己エンコーダーフレームワークを採用し、マスクされたビデオパッチを予測することで自己教師あり事前学習を行う
データ効率性
完全教師あり手法と比較して、より少ない注釈データで効果的なビデオ表現を学習可能
トランスフォーマーアーキテクチャ
標準的な視覚トランスフォーマーアーキテクチャに基づき、優れた拡張性と転移能力を有する

モデル能力

ビデオ特徴抽出
ビデオ表現学習
マスクパッチ予測

使用事例

ビデオ理解
ビデオ分類
事前学習モデルを基に微調整してビデオ分類タスクに使用
行動認識
ビデオ中の人間の行動認識タスクに使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase