🚀 VideoMAE (小型モデル、SSV2でファインチューニング済み)
VideoMAEモデルは、2400エポックの自己教師あり学習で事前学習され、Something-Something V2データセットで教師あり学習によりファインチューニングされています。このモデルは、Tongらによる論文VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Trainingで紹介され、このリポジトリで最初に公開されました。
免責事項: VideoMAEを公開したチームはこのモデルに対するモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
🚀 クイックスタート
VideoMAEは、Masked Autoencoders (MAE)をビデオに拡張したモデルです。そのアーキテクチャは標準的なVision Transformer (ViT)に非常に似ており、マスクされたパッチのピクセル値を予測するためのデコーダが上部にあります。
ビデオは固定サイズのパッチ(解像度16x16)のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に[CLS]トークンが追加されます。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、固定の正弦/余弦位置埋め込みも追加されます。
モデルを事前学習することで、ビデオの内部表現を学習し、下流タスクに役立つ特徴を抽出することができます。たとえば、ラベル付きのビデオデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して標準的な分類器を学習することができます。通常、[CLS]トークンの最後の隠れ状態はビデオ全体の表現と見なすことができるため、このトークンの上に線形レイヤーを配置します。
✨ 主な機能
このモデルは、174種類のSomething-Something V2ラベルのいずれかにビデオを分類するために使用できます。
💻 使用例
基本的な使用法
以下は、このモデルを使用してビデオを分類する方法の例です。
from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 224, 224))
feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")
inputs = feature_extractor(video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
より多くのコード例については、ドキュメントを参照してください。
📚 ドキュメント
このモデルは、Something-Something V2のテストセットで、トップ1精度66.8、トップ5精度90.3を達成しています。
BibTeXエントリと引用情報
misc{https://doi.org/10.48550/arxiv.2203.12602,
doi = {10.48550/ARXIV.2203.12602},
url = {https://arxiv.org/abs/2203.12602},
author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
📄 ライセンス
このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。