V

Videomae Large

MCG-NJUによって開発
VideoMAEはマスクオートエンコーダ(MAE)に基づく動画自己教師あり事前学習モデルで、マスクされた動画ブロックのピクセル値を予測することで動画表現を学習します
ダウンロード数 3,243
リリース時間 : 8/2/2022

モデル概要

このモデルは視覚Transformerアーキテクチャを採用し、Kinetics-400データセットで自己教師あり方式で事前学習されており、動画理解タスクの特徴抽出に適しています

モデル特徴

動画自己教師あり学習
マスクオートエンコーダフレームワークを採用し、人手のアノテーションなしで動画表現を学習可能
効率的なデータ活用
完全教師あり手法と比較して、アノテーションデータへの依存を大幅に削減
Transformerアーキテクチャ
視覚Transformerベースのエンコーダ-デコーダ構造で、動画シーケンスデータ処理に適している

モデル能力

動画特徴抽出
マスクピクセル予測
動画表現学習

使用事例

動画理解
動画分類
事前学習モデルを微調整して動画分類タスクに使用
行動認識
動画特徴を抽出して人間の行動認識に利用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase