VideoMAEオープンソースビデオモデル - 無料デプロイでビデオ分類タスクのアプリケーションを支援

ホーム

Videomae Small Finetuned Kinetics

MCG-NJUによって開発

VideoMAEは動画分野のマスクオートエンコーダモデルで、自己教師あり事前学習を行いKinetics-400データセットで教師ありファインチューニングされており、動画分類タスクに適しています。

動画処理

Transformers

#動画分類 #マスクオートエンコーダ #自己教師あり学習

ダウンロード数 2,152

リリース時間 : 4/16/2023

モデル概要

このモデルはマスクオートエンコーダアーキテクチャに基づいており、動画分類タスク専用で、Kinetics-400データセットの400種類の動作カテゴリを識別できます。

モデル特徴

自己教師あり事前学習

1600エポックの自己教師あり事前学習により動画内部表現を学習

効率的な動画分類

Kinetics-400データセットでファインチューニング後、400種類の動作カテゴリを正確に識別可能

マスクオートエンコーダアーキテクチャ

マスクオートエンコーダ手法を用いた動画事前学習によりデータ効率を向上

モデル能力

動画分類

動作認識

動画特徴抽出

使用事例

動画コンテンツ分析

動作認識

動画中の人間の動作を識別

Kinetics-400テストセットで79.0のtop-1精度を達成

動画分類

動画を400の事前定義カテゴリに分類

Kinetics-400テストセットで93.8のtop-5精度を達成

🚀 VideoMAE (小型モデル、Kinetics-400でファインチューニング済み)

VideoMAEモデルは、自己教師付き学習で1600エポック事前学習され、Kinetics-400で教師付き学習によりファインチューニングされています。このモデルはTongらによる論文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training で紹介され、最初はこのリポジトリで公開されました。

免責事項: VideoMAEを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、VideoMAEモデルを使った基本的なビデオ分類の手順を説明します。

✨ 主な機能

VideoMAEは、Masked Autoencoders (MAE) をビデオに拡張したモデルです。モデルのアーキテクチャは標準的なVision Transformer (ViT) に非常に似ており、マスクされたパッチの画素値を予測するためのデコーダが上部にあります。ビデオは固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。分類タスクに使用するために、シーケンスの先頭に [CLS] トークンが追加されます。また、シーケンスをTransformerエンコーダのレイヤーに入力する前に、固定の正弦/余弦位置埋め込みが追加されます。事前学習により、モデルはビデオの内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。

💻 使用例

基本的な使用法

from transformers import VideoMAEImageProcessor, VideoMAEForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-small-finetuned-kinetics")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-small-finetuned-kinetics")

inputs = processor(video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

高度な使用法

より詳細なコード例については、ドキュメントを参照してください。

📚 ドキュメント

評価結果

このモデルは、Kinetics-400のテストセットでトップ1精度79.0、トップ5精度93.8を達成しています。

BibTeX引用

misc{https://doi.org/10.48550/arxiv.2203.12602,
  doi = {10.48550/ARXIV.2203.12602},
  url = {https://arxiv.org/abs/2203.12602},
  author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution 4.0 International}
}