Timesformer-hr-finetuned-ssv2オープンソースビデオ理解モデル - 高解像度で高精度にビデオ内容を解析

ホーム

Timesformer Hr Finetuned Ssv2

facebookによって開発

TimeSformerは空間-時間注意メカニズムに基づくビデオ理解モデルで、このバージョンはSomething Something v2データセットでファインチューニングされた高解像度バリアントです。

動画処理

Transformers

#ビデオ動作分類 #時空間注意メカニズム #高解像度処理

ダウンロード数 550

リリース時間 : 10/7/2022

モデル概要

このモデルはビデオ分類タスクに使用され、ビデオを174種類のSomething Something v2ラベルのいずれかに分類できます。

モデル特徴

空間-時間注意メカニズム

純粋な注意メカニズムを使用してビデオの時空間情報を処理し、畳み込み操作を必要としません

高解像度処理能力

このバリアントはより高解像度のビデオ入力（448x448）をサポートします

ビデオ理解能力

ビデオ分類タスクに特化して最適化されており、ビデオ内の時空間関係を理解できます

モデル能力

ビデオ分類

時空間特徴抽出

高解像度ビデオ処理

使用事例

ビデオ理解

動作認識

ビデオ内の人間の動作や行動を認識する

Something Something v2データセットで良好な性能を発揮

ビデオコンテンツ分析

ビデオコンテンツを分析し自動分類する

🚀 TimeSformer (高解像度バリアント、Something Something v2でファインチューニング済み)

TimeSformerモデルは、Something Something v2で事前学習されています。このモデルは、Tongらによる論文TimeSformer: Is Space-Time Attention All You Need for Video Understanding?で紹介され、最初はthis repositoryで公開されました。

免責事項: TimeSformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはfcakyonによって作成されました。

🚀 クイックスタート

TimeSformerモデルは、Something Something v2で事前学習され、動画分類タスクに使用できます。

✨ 主な機能

174種類のSomething Something v2ラベルへの動画分類が可能です。

📦 インストール

このセクションでは、インストールに関する具体的なコマンドが原READMEに記載されていないため、省略します。

💻 使用例

基本的な使用法

以下は、このモデルを使用して動画を分類する方法の例です。

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")

inputs = feature_extractor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定される用途と制限

生モデルを使用して、174種類のSomething Something v2ラベルのいずれかに動画を分類することができます。

BibTeXエントリと引用情報

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}