VideoMAE-base-short-ssv2オープンソースビデオモデル - ビデオの自己監督学習事前トレーニングをサポート！無料で使いやすい！

ホーム

Videomae Base Short Ssv2

MCG-NJUによって開発

VideoMAEはマスク自己符号化器(MAE)に基づくビデオ自己教師あり事前学習モデルで、Something-Something-v2データセットで800エポックの事前学習を行いました。

動画処理

Transformers

#ビデオマスク自己符号化 #自己教師あり事前学習 #時空間特徴学習

ダウンロード数 112

リリース時間 : 8/2/2022

モデル概要

このモデルは自己教師あり方式でビデオ内部表現を学習し、主にビデオ分類などの下流タスクのファインチューニングに使用されます。

モデル特徴

ビデオ自己教師あり学習

マスク自己符号化器(MAE)手法を用いてビデオ自己教師あり事前学習を実施、ラベルデータ不要

効率的な事前学習

Something-Something-v2データセットで800エポックの事前学習を行い、ビデオ内部表現を学習

下流タスク適応

事前学習モデルはファインチューニングにより様々なビデオ理解タスクに適応可能

モデル能力

ビデオ特徴抽出

自己教師あり学習

ビデオ表現学習

使用事例

ビデオ理解

ビデオ分類

事前学習モデルを基にファインチューニングし、ビデオ内容分類に使用

行動認識

ビデオ中の人間の行動認識タスクに使用可能

🚀 VideoMAE (ベースサイズのモデル、事前学習のみ)

VideoMAEモデルは、Something-Something-v2データセットで800エポック、自己教師付き学習方式で事前学習されています。このモデルは、Tongらによる論文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training で紹介され、このリポジトリで最初に公開されました。

免責事項: VideoMAEを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

VideoMAEは、Masked Autoencoders (MAE) をビデオに拡張したモデルです。モデルのアーキテクチャは、標準的なVision Transformer (ViT) と非常に似ており、マスクされたパッチのピクセル値を予測するためのデコーダが上部にあります。

ビデオは、固定サイズのパッチ (解像度16x16) のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、固定の正弦/余弦位置埋め込みも追加されます。

モデルを事前学習することで、ビデオの内部表現を学習し、下流タスクに有用な特徴を抽出することができます。たとえば、ラベル付きビデオのデータセットがある場合、事前学習されたエンコーダの上部に線形層を配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの上部に線形層を配置します。このトークンの最後の隠れ状態は、ビデオ全体の表現と見なすことができます。

想定される用途と制限

このモデルは、ビデオのマスクされたパッチのピクセル値を予測するために使用することもできますが、主に下流タスクでファインチューニングすることを想定しています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

# このコードは、ビデオのランダムにマスクされたパッチのピクセル値を予測するためのものです。
from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch

num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base-short-ssv2")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base-short-ssv2")

pixel_values = processor(video, return_tensors="pt").pixel_values

num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()

outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss

より詳細なコード例については、ドキュメントを参照してください。

📚 ドキュメント

トレーニングデータ

トレーニングデータに関する詳細は未提供です。必要に応じてPRを作成してください。

トレーニング手順

前処理

前処理に関する詳細は未提供です。必要に応じてPRを作成してください。

事前学習

事前学習に関する詳細は未提供です。必要に応じてPRを作成してください。

評価結果

評価結果に関する詳細は未提供です。必要に応じてPRを作成してください。

BibTeX引用

misc{https://doi.org/10.48550/arxiv.2203.12602,
  doi = {10.48550/ARXIV.2203.12602},
  url = {https://arxiv.org/abs/2203.12602},
  author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution 4.0 International}
}