V

Videomae Base

MCG-NJUによって開発
VideoMAEはマスクオートエンコーダ(MAE)に基づくビデオ自己教師あり事前学習モデルで、マスクされたビデオブロックのピクセル値を予測することでビデオ内部表現を学習します。
ダウンロード数 48.66k
リリース時間 : 8/3/2022

モデル概要

このモデルはマスクオートエンコーダをビデオ領域に拡張したもので、視覚Transformerアーキテクチャを使用し、上部にデコーダを追加してマスクブロックのピクセル値を予測します。主にビデオ特徴抽出と下流タスクのファインチューニングに使用されます。

モデル特徴

ビデオ自己教師あり学習
マスクビデオブロック予測タスクにより教師なし事前学習を実現し、ラベル付きデータへの依存を軽減
効率的なデータ利用
従来手法に比べ、少ないデータ量で効果的なビデオ表現を学習可能
柔軟な下流アプリケーション
事前学習モデルは様々なビデオ理解タスクにファインチューニング可能

モデル能力

ビデオ特徴抽出
マスクブロックピクセル予測
ビデオ表現学習

使用事例

ビデオ理解
ビデオ分類
事前学習モデル上部に分類層を追加してファインチューニング
行動認識
学習済みビデオ表現を利用して特定の行動を識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase