Timesformer-base-finetuned-k600オープンソースビデオ分類モデル - 正確かつ効率的なビデオカテゴリ識別

ホーム

Timesformer Base Finetuned K600

fcakyonによって開発

TimeSformerは空間-時間注意メカニズムに基づく動画分類モデルで、Kinetics-600データセットでファインチューニングされています。

動画処理

Transformers

#ビデオ行動認識 #時空間注意メカニズム #Kinetics-600ファインチューニング

ダウンロード数 20

リリース時間 : 12/10/2022

モデル概要

このモデルは主に動画分類タスクに使用され、動画を600種類のKinetics-600ラベルのいずれかに分類できます。

モデル特徴

空間-時間注意メカニズム

革新的な空間-時間注意メカニズムを採用し、従来の3D畳み込み操作なしで動画データを処理します。

効率的な動画理解

動画中の時空間的特徴を効果的に捉え、効率的な動画分類を実現します。

大規模事前学習

Kinetics-600大規模動画データセットで事前学習とファインチューニングを行っています。

モデル能力

動画分類

時空間特徴抽出

行動認識

使用事例

動画コンテンツ分析

行動認識

動画中の人間の行動や動作を識別

600種類の異なる行動カテゴリに分類可能

動画コンテンツ分類

動画コンテンツを自動分類・タグ付け

🚀 TimeSformer (ベースサイズのモデル、Kinetics-600でファインチューニング済み)

Kinetics-600 で事前学習されたTimeSformerモデルです。このモデルはTongらによる論文 TimeSformer: Is Space-Time Attention All You Need for Video Understanding? で紹介され、このリポジトリで最初に公開されました。

なお、TimeSformerを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードは fcakyon によって作成されています。

🚀 クイックスタート

このモデルは、600種類のKinetics-600ラベルのいずれかに動画を分類するために使用できます。

💻 使用例

基本的な使用法

以下は、このモデルを使用して動画を分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 詳細ドキュメント

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}