V

Videomae Huge Finetuned Kinetics

MCG-NJUによって開発
VideoMAEはマスクオートエンコーダ(MAE)に基づくビデオ事前学習モデルで、自己教師あり学習によりKinetics-400データセットでファインチューニングされており、ビデオ分類タスクに適しています。
ダウンロード数 2,984
リリース時間 : 4/16/2023

モデル概要

このモデルはマスクオートエンコーダをビデオ領域に拡張したもので、標準的な視覚Transformerアーキテクチャを使用し、トップにデコーダを追加してマスクされたブロックのピクセル値を予測します。事前学習によりビデオ内部表現を学習し、下流のビデオ分類タスクに使用できます。

モデル特徴

自己教師あり事前学習
1600エポックの自己教師あり方式で事前学習を行い、効果的にビデオ内部表現を学習
効率的なビデオ学習
マスクオートエンコーダフレームワークに基づき、マスクされたブロックのピクセル値を予測することで効率的なビデオ特徴学習を実現
大規模ファインチューニング
Kinetics-400データセットで教師ありファインチューニングを行い、400種類のビデオ分類タスクに対応

モデル能力

ビデオ特徴抽出
ビデオ分類
自己教師あり学習

使用事例

ビデオコンテンツ分析
行動認識
ビデオ中の人間の動作や行動を認識
Kinetics-400テストセットで86.6%のtop-1精度を達成
ビデオ分類
ビデオコンテンツを分類してラベル付け
Kinetics-400の400種類のラベル分類をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase