TimeSformerオープンソース動画分類モデル - 動画理解タスクの無料デプロイを支援

Home

Timesformer Hr Finetuned K600

Developed by facebook

TimeSformerは、空間-時間注意メカニズムに基づくビデオ分類モデルで、ビデオ理解タスク専用に設計されています。

動画処理

Transformers

#ビデオ行動認識 #時空間注意メカニズム #Kinetics-600事前学習

Downloads 2,927

Release Time : 10/7/2022

Model Overview

このモデルはKinetics-600データセットで事前学習されており、ビデオを600の可能なカテゴリに分類できます。畳み込み操作なしで、純粋な注意メカニズムを使用してビデオデータを処理します。

Model Features

純粋な注意メカニズム

完全にTransformerアーキテクチャに基づいており、従来の畳み込み操作なしで空間-時間注意を使用してビデオデータを処理します

効率的なビデオ理解

ビデオシーケンスデータを処理するために特別に設計されており、時空間特徴を捉えることができます

大規模事前学習

Kinetics-600大規模ビデオデータセットで事前学習されており、幅広い応用能力を持っています

Model Capabilities

ビデオ分類

時空間特徴抽出

ビデオ内容理解

Use Cases

ビデオ分析

行動認識

ビデオ内の人間の行動や動作を識別します

Kinetics-600データセットの600の行動カテゴリを識別可能

ビデオ内容分類

ビデオ内容を自動的に分類しタグ付けします

🚀 TimeSformer (ベースサイズのモデル、Kinetics-600でファインチューニング済み)

TimeSformerモデルは、Kinetics-600で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、このリポジトリで最初に公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

このモデルは、600種類のKinetics-600ラベルのいずれかに動画を分類するために使用できます。

✨ 主な機能

事前学習済みのTimeSformerモデルを使用した高精度な動画分類
Kinetics-600データセットでファインチューニングされている

💻 使用例

基本的な使用法

以下は、このモデルを使用して動画を分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-hr-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-hr-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

意図された使用法と制限

このモデルは、600種類のKinetics-600ラベルのいずれかに動画を分類するために使用できます。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}