TimeSformerオープンソース動画分類モデル - 無料でデプロイし、正確に動画のカテゴリを識別する

ホーム

Timesformer Base Finetuned Ssv2

fcakyonによって開発

TimeSformerは時空間アテンションメカニズムに基づくビジュアルTransformerモデルで、ビデオ分類タスク専用です。

動画処理

Transformers

#ビデオアクション分類 #時空間アテンション #174クラス認識

ダウンロード数 15

リリース時間 : 12/10/2022

モデル概要

このモデルはSomething Something v2データセットでファインチューニングされており、ビデオを174の可能なカテゴリに分類できます。ビデオの時空間情報を処理するために純粋なアテンションメカニズムを採用しています。

モデル特徴

純粋なアテンションメカニズム

ビデオの時空間情報を処理するために完全にアテンションメカニズムに基づいており、畳み込み操作は不要です

効率的なビデオ理解

ビデオ中の時空間的特徴を効果的に捉えることができ、アクション認識などのタスクに適しています

Transformerアーキテクチャ

Transformerアーキテクチャを採用しており、優れた拡張性と並列処理能力を備えています

モデル能力

ビデオ分類

アクション認識

時空間特徴抽出

使用事例

ビデオ理解

アクション認識

ビデオ中の人間の動作や行動を認識する

Something Something v2データセットで正確な分類が可能

ビデオコンテンツ分析

ビデオコンテンツを分析し自動分類する

🚀 TimeSformer (ベースサイズのモデル、Something Something v2でファインチューニング済み)

TimeSformerモデルは、Something Something v2で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、最初はこのリポジトリで公開されました。

なお、TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されています。

🚀 クイックスタート

このモデルは、174種類のSomething Something v2ラベルのいずれかに動画を分類するために使用できます。

💻 使用例

基本的な使用法

以下は、このモデルを使用して動画を分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-ssv2")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}