🚀 VideoMAE (ベースサイズのモデル、事前学習のみ)
VideoMAEモデルは、Kinetics - 400データセットで1600エポック、自己教師付き学習方式で事前学習されています。このモデルは、Tongらによる論文VideoMAE: Masked Autoencoders are Data - Efficient Learners for Self - Supervised Video Pre - Trainingで紹介され、[このリポジトリ](https://github.com/MCG - NJU/VideoMAE)で最初に公開されました。
免責事項: VideoMAEを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
VideoMAEは、ビデオに対するMasked Autoencoders (MAE)の拡張です。このモデルは、マスクされたパッチの画素値を予測するためのデコーダーを備えた標準的なVision Transformer (ViT)に似たアーキテクチャを持っています。事前学習により、ビデオの内部表現を学習し、下流タスクに有用な特徴を抽出することができます。
✨ 主な機能
- ビデオのマスクされたパッチの画素値を予測する機能。
- 下流タスクに微調整することで、ビデオ分類などのタスクに利用できる。
📚 ドキュメント
モデルの説明
VideoMAEは、ビデオに対するMasked Autoencoders (MAE)の拡張です。モデルのアーキテクチャは、標準的なVision Transformer (ViT)に非常に似ており、マスクされたパッチの画素値を予測するためのデコーダーが上部にあります。
ビデオは、固定サイズのパッチ(解像度16x16)のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に[CLS]トークンを追加します。トランスフォーマーエンコーダーのレイヤーにシーケンスを入力する前に、固定の正弦/余弦位置埋め込みも追加します。
モデルを事前学習することで、ビデオの内部表現を学習し、下流タスクに有用な特徴を抽出することができます。例えば、ラベル付きビデオのデータセットがある場合、事前学習されたエンコーダーの上に線形層を配置して、標準的な分類器を学習することができます。通常、[CLS]トークンの最後の隠れ状態は、ビデオ全体の表現と見なせるため、このトークンの上に線形層を配置します。
想定される用途と制限
生のモデルを使用して、ビデオのマスクされたパッチの画素値を予測することはできますが、主に下流タスクで微調整することを目的としています。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。
使い方
ここでは、このモデルを使用して、ランダムにマスクされたパッチの画素値を予測する方法を示します。
💻 使用例
基本的な使用法
from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch
num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))
processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base")
pixel_values = processor(video, return_tensors="pt").pixel_values
num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()
outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss
より多くのコード例については、ドキュメントを参照してください。
訓練データ
(未記載です。PRを出していただいて構いません。)
訓練手順
前処理
(未記載です。PRを出していただいて構いません。)
事前学習
(未記載です。PRを出していただいて構いません。)
評価結果
(未記載です。PRを出していただいて構いません。)
BibTeXエントリと引用情報
misc{https://doi.org/10.48550/arxiv.2203.12602,
doi = {10.48550/ARXIV.2203.12602},
url = {https://arxiv.org/abs/2203.12602},
author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
📄 ライセンス
このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。