TimeSformer動画分類モデルのオープンソース化 - Kinetics - 400に対して微調整して動画を高精度に分類

ホーム

Timesformer Base Finetuned K400

fcakyonによって開発

TimeSformerは、空間-時間注意メカニズムに基づくビデオ分類モデルで、Kinetics-400データセットに特化してファインチューニングされています。

動画処理

Transformers

#ビデオ行動認識 #時空間注意メカニズム #Kinetics-400事前学習

ダウンロード数 17

リリース時間 : 12/10/2022

モデル概要

このモデルは、ビデオを400種類の可能なKinetics-400ラベルのいずれかに分類するために使用され、畳み込み操作なしで純粋な注意メカニズムを使用してビデオデータを処理します。

モデル特徴

純粋な注意メカニズム

従来の畳み込み操作なしで、完全に空間-時間注意メカニズムに基づいてビデオを処理します

効率的なビデオ理解

空間と時間の注意メカニズムを分解することで、長いビデオシーケンスを効率的に処理します

大規模事前学習

Kinetics-400大規模ビデオデータセットに基づいて事前学習とファインチューニングを行います

モデル能力

ビデオ分類

時空間特徴抽出

行動認識

使用事例

ビデオコンテンツ分析

行動認識

ビデオ内の人間の行動や振る舞いを認識します

400種類の異なる行動カテゴリを認識可能

ビデオコンテンツ分類

ビデオコンテンツを自動的に分類し、タグ付けします

🚀 TimeSformer (ベースサイズのモデル、Kinetics-400でファインチューニング済み)

TimeSformerモデルは、Kinetics-400で事前学習されています。このモデルは、Tongらによる論文 TimeSformer: Is Space-Time Attention All You Need for Video Understanding? で紹介され、最初はこのリポジトリで公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは fcakyon によって作成されています。

🚀 クイックスタート

このモデルは、動画分類タスクに使用できます。具体的には、400種類のKinetics-400ラベルのいずれかに動画を分類することが可能です。

✨ 主な機能

事前学習済みのTimeSformerモデルを使用して、Kinetics-400データセットに対する動画分類を行えます。
Hugging FaceのTransformersライブラリと互換性があり、簡単に使用できます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-k400")

inputs = processor(video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

高度な使用法

より詳細なコード例については、ドキュメントを参照してください。

📚 ドキュメント

このモデルの詳細なドキュメントは、こちらを参照してください。

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で公開されています。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}