Timesformer-hr-finetuned-k600オープンソースビデオ理解モデル - 高解像度微調整によるビデオ分析の支援

ホーム

Timesformer Hr Finetuned K600

fcakyonによって開発

TimeSformerは時空間アテンション機構に基づくビデオ理解モデルで、高解像度バリアントはKinetics-600データセット向けに特別にファインチューニングされています。

動画処理

Transformers

#ビデオ行動認識 #時空間アテンション機構 #高解像度処理

ダウンロード数 22

リリース時間 : 12/10/2022

モデル概要

このモデルは主にビデオ分類タスクに使用され、Kinetics-600データセットの600カテゴリー分類をサポートします。畳み込み操作なしで純粋なアテンション機構を用いてビデオの時空間情報を処理します。

モデル特徴

純粋アテンション機構

Transformerアーキテクチャのみでビデオデータを処理し、従来の畳み込み操作が不要

高解像度サポート

特別に最適化された高解像度バリアントで、より詳細なビデオコンテンツを処理可能

時空間モデリング

ビデオ中の空間次元と時間次元の情報を同時に捕捉

モデル能力

ビデオコンテンツ分類

時空間特徴抽出

行動認識

使用事例

ビデオ分析

行動認識

ビデオ中の人間の動作や行動を識別

Kinetics-600データセットの600種類の動作カテゴリーを識別可能

ビデオコンテンツ分類

ビデオコンテンツを自動分類・タグ付け

🚀 TimeSformer (高解像度バリアント、Kinetics-600でファインチューニング済み)

TimeSformerモデルは、Kinetics-600で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、最初はthis repositoryで公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

このモデルは、600種類のKinetics-600ラベルのいずれかにビデオを分類するために使用できます。

✨ 主な機能

ビデオ分類タスクに適用可能
Kinetics-600データセットでファインチューニングされている

💻 使用例

基本的な使用法

以下は、このモデルを使用してビデオを分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}