TimeSformerオープンソースビデオ分類モデル - 無料で利用可能、高精度なビデオ理解と分類を実現

ホーム

Timesformer Base Finetuned K400

facebookによって開発

TimeSformerはKinetics-400データセットで事前学習されたビデオ分類モデルで、時空間アテンションメカニズムを用いてビデオ理解を実現します。

動画処理

Transformers

#ビデオアクション分類 #時空間アテンションメカニズム #Kinetics-400データセット

ダウンロード数 108.61k

リリース時間 : 10/7/2022

モデル概要

このモデルは主にビデオ分類タスクに使用され、ビデオをKinetics-400データセットの400の可能なカテゴリのいずれかに分類できます。

モデル特徴

時空間アテンションメカニズム

革新的な時空間アテンションメカニズムを使用してビデオデータを処理し、従来の3D畳み込み操作を必要としません。

効率的なビデオ理解

アテンションメカニズムを通じてビデオ内の時空間関係を直接モデル化し、ビデオ理解の効率を向上させます。

Kinetics-400でファインチューニング

大規模なビデオデータセットKinetics-400でファインチューニングされており、優れた分類性能を発揮します。

モデル能力

ビデオ分類

時空間特徴抽出

ビデオコンテンツ理解

使用事例

ビデオ分析

アクション認識

ビデオ内の人間の動作や行動を認識する

400種類の異なる人間の動作を分類可能

ビデオコンテンツ分類

ビデオコンテンツを分類してタグ付けする

Kinetics-400データセットの400カテゴリをサポート

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Timesformer Base Finetuned K400

モデル概要

モデル特徴

モデル能力

使用事例

🚀 TimeSformer (ベースサイズのモデル、Kinetics-400でファインチューニング済み)

🚀 クイックスタート

💻 使用例

基本的な使用法

📚 ドキュメント

BibTeXエントリと引用情報

📄 ライセンス