videomae - base - finetunedオープンソースビデオ理解モデル - 無料でデプロイ可能、評価セットの正解率は86.41%に達する

ホーム

Videomae Base Finetuned

LouisDTによって開発

VideoMAEベースモデルを未知のデータセットで微調整した動画理解モデルで、評価セットで86.41%の精度を達成

動画処理

Transformers

#動画理解 #高精度 #行動認識

ダウンロード数 15

リリース時間 : 2/8/2023

モデル概要

このモデルはVideoMAE基本アーキテクチャの微調整バージョンで、主に動画コンテンツ理解タスクに使用されます。具体的な応用シナリオはさらに追加する必要があります

モデル特徴

効率的な動画表現学習

マスク自己符号化器アーキテクチャを採用し、動画の時空間的特徴表現を効果的に学習可能

優れた微調整性能

評価セットで86.41%の精度を達成し、良好なパフォーマンスを発揮

軽量トレーニング

バッチサイズ8で効果的なトレーニングが可能

モデル能力

動画特徴抽出

動画コンテンツ分類

時空間パターン認識

使用事例

動画コンテンツ分析

行動認識

動画中の人間の動作や行動を認識

精度86.41%（評価セットベース）

シーン分類

動画シーンコンテンツを分類

学習損失	エポック	ステップ	検証損失	正解率
0.7163	0.21	28	0.6078	0.8098
0.7383	1.21	56	0.6975	0.4728
0.6853	2.21	84	0.6637	0.6957
0.7065	3.21	112	0.5590	0.8641
0.6673	4.17	135	0.5766	0.8587

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Videomae Base Finetuned

モデル概要

モデル特徴

モデル能力

使用事例

🚀 videomae-base-finetuned

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス