A

Athit Timesformer 32PS

mbusheeによって開発
TimeSformerは空間-時間注意メカニズムに基づくビデオ理解モデルで、Kinetics-400データセットでファインチューニングされており、ビデオ分類タスクに使用できます。
ダウンロード数 17
リリース時間 : 2/23/2024

モデル概要

このモデルは主にビデオを400種類のKinetics-400ラベルのいずれかに分類するために使用され、ビデオの時空間情報を処理するために純粋な注意メカニズムを採用しています。

モデル特徴

純粋な注意メカニズム
畳み込み操作なしで、完全に注意メカニズムに基づいてビデオの時空間情報を処理
効率的なビデオ理解
ビデオ内の時空間的特徴を効果的に捕捉し、正確なビデオ分類を実現
事前学習済みモデル
大規模なビデオデータセットKinetics-400で事前学習とファインチューニングを実施

モデル能力

ビデオ分類
時空間特徴抽出
ビデオ内容理解

使用事例

ビデオ分析
行動認識
ビデオ中の人間の動作や行動を認識
400種類の異なる動作カテゴリに分類可能
ビデオ内容分類
ビデオ内容を自動的に分類しタグ付け
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase