V

Videomae Base Ssv2

MCG-NJUによって開発
VideoMAEはマスクオートエンコーダに基づく自己教師ありビデオ事前学習モデルで、Something-Something-v2データセットで2400エポック事前学習されています。
ダウンロード数 454
リリース時間 : 8/2/2022

モデル概要

このモデルは自己教師あり方式でビデオ内部表現を学習し、ビデオ分類などの下流タスクのファインチューニングに適しています。

モデル特徴

自己教師あり事前学習
マスクオートエンコーダ手法を採用し、注釈データなしで事前学習可能
効率的なビデオ学習
マスクビデオブロック予測タスクを通じてビデオ表現を学習
ViTアーキテクチャベース
視覚Transformerアーキテクチャを採用し、ビデオシーケンスデータ処理に適している

モデル能力

ビデオ特徴抽出
ビデオマスクブロック予測
ビデオ分類タスクのファインチューニング

使用事例

ビデオ理解
ビデオ分類
事前学習モデルを基にビデオ分類タスク用にファインチューニング
ビデオ表現学習
下流タスク用にビデオ特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase