オープンソースのTimeSformer-hr-finetuned-k400モデル - ビデオ理解と分析を効率的に実現

ホーム

Timesformer Hr Finetuned K400

facebookによって開発

TimeSformerは、空間-時間アテンションメカニズムに基づくビデオ理解モデルで、Kinetics-400データセットで事前学習とファインチューニングが行われています。

動画処理

Transformers

#ビデオ分類 #時空間アテンション #高解像度処理

ダウンロード数 178

リリース時間 : 10/7/2022

モデル概要

このモデルは主にビデオ分類タスクに使用され、ビデオを400種類のKinetics-400ラベルのいずれかに分類できます。

モデル特徴

空間-時間アテンションメカニズム

純粋なアテンションメカニズムを使用してビデオの空間および時間情報を処理し、畳み込み操作を必要としません。

高解像度処理能力

このバリアントは高解像度ビデオ入力をサポートし、より細かい視覚的特徴を捉えることができます。

大規模事前学習

Kinetics-400大規模ビデオデータセットで事前学習されており、強力な汎化能力を持っています。

モデル能力

ビデオ分類

行動認識

ビデオコンテンツ分析

使用事例

ビデオコンテンツ理解

行動認識

ビデオ中の人間の動作や行動を識別

400種類の異なる動作カテゴリを識別可能

ビデオ分類

ビデオコンテンツを分類およびタグ付け

🚀 TimeSformer (高解像度バリアント、Kinetics-400でファインチューニング済み)

TimeSformerモデルは、Kinetics-400で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、最初はthis repositoryで公開されました。

免責事項：TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

このモデルは、400種類のKinetics-400ラベルのいずれかに動画を分類するために使用できます。

✨ 主な機能

事前学習済みのTimeSformerモデルを使用した動画分類
Kinetics-400データセットでファインチューニング済み

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、このモデルを使用して動画を分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-hr-finetuned-k400")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、documentationを参照してください。

📚 ドキュメント

このモデルの詳細なドキュメントは、こちらを参照してください。

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}