TimeSformerオープンソース動画分類モデル - 無料でデプロイして、大量の動画データを正確に分類

Home

Timesformer Base Finetuned K600

Developed by facebook

TimeSformerはKinetics-600データセットで事前学習されたビデオ分類モデルで、時空間注意メカニズムを使用してビデオデータを処理します。

動画処理

Transformers

#ビデオアクション分類 #時空間注意メカニズム #Kinetics-600事前学習

Downloads 4,026

Release Time : 10/7/2022

Model Overview

このモデルは主に、ビデオをKinetics-600データセットの600の可能なクラスのいずれかに分類するために使用され、Transformerアーキテクチャを使用してビデオの時空間的特徴を処理します。

Model Features

時空間注意メカニズム

Transformerアーキテクチャを使用して、ビデオの空間次元と時間次元の情報を同時に処理

大規模事前学習

600のアクションカテゴリを含むKinetics-600データセットで事前学習

エンドツーエンドのビデオ理解

手動で設計した特徴なしに、生のビデオフレームから直接時空間的特徴を学習

Model Capabilities

ビデオ分類

アクション認識

時空間特徴抽出

Use Cases

ビデオコンテンツ分析

アクション認識

ビデオ内の人物のアクションカテゴリを識別

Kinetics-600の600のアクションを識別可能

ビデオコンテンツ分類

ビデオコンテンツを自動分類

インテリジェント監視

異常行動検出

監視ビデオ内の異常行動を検出

🚀 TimeSformer (ベースサイズのモデル、Kinetics-600でファインチューニング済み)

TimeSformerは、Kinetics-600で事前学習されたモデルです。Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、このリポジトリで最初に公開されました。

免責事項：TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されています。

🚀 クイックスタート

このモデルは、600種類のKinetics-600ラベルのいずれかにビデオを分類するために使用できます。

✨ 主な機能

ビデオ分類：Kinetics-600の600種類のラベルにビデオを分類することができます。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-base-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-base-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

モデルの詳細なドキュメントは、こちらを参照してください。

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}