Timesformer-large-finetuned-k400オープンソースビデオ分類モデル

ホーム

Timesformer Large Finetuned K400

fcakyonによって開発

TimeSformerは、空間-時間注意メカニズムに基づくビデオ分類モデルで、ビデオ理解タスク専用に設計されています。

動画処理

Transformers

#ビデオ行動認識 #時空間注意メカニズム #Kinetics-400事前学習

ダウンロード数 254

リリース時間 : 12/10/2022

モデル概要

このモデルはKinetics-400データセットで事前学習されており、ビデオを400の可能なカテゴリのいずれかに分類できます。ビデオの時空間情報を処理するために純粋な注意メカニズムを採用しています。

モデル特徴

純粋な注意メカニズム

畳み込み操作なしで、Transformerアーキテクチャのみを使用してビデオの時空間情報を処理

効率的なビデオ理解

ビデオ内の時空間的特徴を効果的に捕捉でき、長尺動画の理解に適している

大規模事前学習

Kinetics-400大規模ビデオデータセットに基づいて事前学習を実施

モデル能力

ビデオ分類

時空間特徴抽出

ビデオ内容理解

使用事例

ビデオ内容分析

行動認識

ビデオ中の人間の動作や行動を識別

Kinetics-400データセットの400種類の動作カテゴリを識別可能

ビデオ内容分類

ビデオ内容を分類しタグ付け

🚀 TimeSformer (大型モデル、Kinetics - 400でファインチューニング済み)

TimeSformerモデルは、Kinetics - 400で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space - Time Attention All You Need for Video Understanding?で紹介され、最初はthis repositoryで公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

このモデルは、動画分類に使用できます。具体的には、400種類のKinetics - 400ラベルのいずれかに動画を分類することができます。

✨ 主な機能

事前学習済みのTimeSformerモデルを使用して、動画を400種類のKinetics - 400ラベルに分類することができます。

📦 インストール

このセクションでは、インストールに関する具体的なコマンドが提供されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(96, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-large-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-large-finetuned-k400")

inputs = processor(video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

高度な使用法

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

このモデルの詳細なドキュメントについては、こちらを参照してください。

🔧 技術詳細

このセクションでは、具体的な技術詳細が提供されていないため、このセクションをスキップします。

📄 ライセンス

このモデルは、CC - BY - NC - 4.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}