TimeSformerオープンソースビデオ理解モデル - 無料でのデプロイで高精度ビデオ分類タスクをサポート

ホーム

Timesformer Base Finetuned Ssv2

facebookによって開発

TimeSformerは時空間アテンションメカニズムに基づくビデオ理解モデルで、Something Something v2データセットでファインチューニングされ、ビデオ分類タスクに使用されます。

動画処理

Transformers

#ビデオ動作分類 #時空間アテンションメカニズム #SSv2データセット

ダウンロード数 379

リリース時間 : 10/7/2022

モデル概要

このモデルは主にビデオを174種類のSomething Something v2ラベルのいずれかに分類するために使用され、純粋なアテンションメカニズムでビデオデータを処理します。

モデル特徴

純粋なアテンションメカニズム

完全に時空間アテンションメカニズムに基づいてビデオデータを処理し、畳み込み操作を必要としません

効率的なビデオ理解

ビデオ内の時空間的特徴を効果的に捉えることができます

事前学習-ファインチューニングパラダイム

Something Something v2データセットでファインチューニングされており、特定のビデオ分類タスクに適しています

モデル能力

ビデオ分類

時空間特徴抽出

ビデオコンテンツ理解

使用事例

ビデオ分析

動作認識

ビデオ内の人間の動作や行動を認識する

174種類の異なる動作カテゴリに分類可能

ビデオコンテンツ理解

ビデオ内の物体の相互作用やシーンの変化を理解する

🚀 TimeSformer (ベースサイズのモデル、Something Something v2でファインチューニング済み)

TimeSformerモデルは、Something Something v2で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、最初はthis repositoryで公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

このモデルは、ビデオ分類に使用できます。具体的には、174種類のSomething Something v2ラベルのいずれかにビデオを分類することができます。

✨ 主な機能

ビデオ分類タスクに適用可能
Something Something v2データセットでファインチューニングされている

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-base-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-base-finetuned-ssv2")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

高度な使用法

より詳細なコード例については、ドキュメントを参照してください。

📚 ドキュメント

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}