VideoMAE-small-finetuned-ssv2オープンソースビデオ分類モデル - 無料でデプロイし、ビデオのカテゴリを正確に識別

ホーム

Videomae Small Finetuned Ssv2

MCG-NJUによって開発

VideoMAEはマスク自己符号化器(MAE)に基づくビデオ自己教師あり事前学習モデルで、Something-Something V2データセットでビデオ分類タスク用にファインチューニングされています。

動画処理

Transformers

#ビデオ行動認識 #自己教師あり事前学習 #SSV2データセット

ダウンロード数 140

リリース時間 : 4/16/2023

モデル概要

このモデルは自己教師あり方式で2400エポック事前学習され、Something-Something V2データセットで教師ありファインチューニングされ、ビデオを174のラベルのいずれかに分類できます。

モデル特徴

自己教師あり事前学習

マスク自己符号化器(MAE)手法を用いた自己教師あり事前学習により、ビデオ内部表現を効果的に学習

効率的なビデオ処理

ビデオを固定サイズのパッチシーケンスに処理し、Transformerアーキテクチャで効率的に処理

SSV2データセットファインチューニング

Something-Something V2データセットでファインチューニングされ、行動認識タスク専用

モデル能力

ビデオ分類

行動認識

特徴抽出

使用事例

ビデオ理解

行動認識

ビデオ中の人間の行動や振る舞いを認識

SSV2テストセットで66.8%のtop-1精度を達成

ビデオコンテンツ分析

ビデオコンテンツを分析し自動分類

🚀 VideoMAE (小型モデル、SSV2でファインチューニング済み)

VideoMAEモデルは、2400エポックの自己教師あり学習で事前学習され、Something-Something V2データセットで教師あり学習によりファインチューニングされています。このモデルは、Tongらによる論文VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Trainingで紹介され、このリポジトリで最初に公開されました。

免責事項: VideoMAEを公開したチームはこのモデルに対するモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

VideoMAEは、Masked Autoencoders (MAE)をビデオに拡張したモデルです。そのアーキテクチャは標準的なVision Transformer (ViT)に非常に似ており、マスクされたパッチのピクセル値を予測するためのデコーダが上部にあります。

ビデオは固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に[CLS]トークンが追加されます。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、固定の正弦/余弦位置埋め込みも追加されます。

モデルを事前学習することで、ビデオの内部表現を学習し、下流タスクに役立つ特徴を抽出することができます。たとえば、ラベル付きのビデオデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して標準的な分類器を学習することができます。通常、[CLS]トークンの最後の隠れ状態はビデオ全体の表現と見なすことができるため、このトークンの上に線形レイヤーを配置します。

✨ 主な機能

このモデルは、174種類のSomething-Something V2ラベルのいずれかにビデオを分類するために使用できます。

💻 使用例

基本的な使用法

以下は、このモデルを使用してビデオを分類する方法の例です。

from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 224, 224))

feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")

inputs = feature_extractor(video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

このモデルは、Something-Something V2のテストセットで、トップ1精度66.8、トップ5精度90.3を達成しています。

BibTeXエントリと引用情報

misc{https://doi.org/10.48550/arxiv.2203.12602,
  doi = {10.48550/ARXIV.2203.12602},
  url = {https://arxiv.org/abs/2203.12602},
  author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution 4.0 International}
}