T

Timesformer Large Finetuned K400

fcakyonによって開発
TimeSformerは、空間-時間注意メカニズムに基づくビデオ分類モデルで、ビデオ理解タスク専用に設計されています。
ダウンロード数 254
リリース時間 : 12/10/2022

モデル概要

このモデルはKinetics-400データセットで事前学習されており、ビデオを400の可能なカテゴリのいずれかに分類できます。ビデオの時空間情報を処理するために純粋な注意メカニズムを採用しています。

モデル特徴

純粋な注意メカニズム
畳み込み操作なしで、Transformerアーキテクチャのみを使用してビデオの時空間情報を処理
効率的なビデオ理解
ビデオ内の時空間的特徴を効果的に捕捉でき、長尺動画の理解に適している
大規模事前学習
Kinetics-400大規模ビデオデータセットに基づいて事前学習を実施

モデル能力

ビデオ分類
時空間特徴抽出
ビデオ内容理解

使用事例

ビデオ内容分析
行動認識
ビデオ中の人間の動作や行動を識別
Kinetics-400データセットの400種類の動作カテゴリを識別可能
ビデオ内容分類
ビデオ内容を分類しタグ付け
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase