Videomae Base Short Finetuned Ssv2 Finetuned Rwf2000 Epochs8 Batch8 Fp16

V

Videomae Base Short Finetuned Ssv2 Finetuned Rwf2000 Epochs8 Batch8 Fp16

lmazzon70によって開発

VideoMAEアーキテクチャに基づく動画行動認識モデルで、SSv2データセットで事前学習後、RWF-2000データセットでさらにファインチューニング

#動画行動認識 #ファインチューニング転移学習 #FP16高速化

ダウンロード数 14

リリース時間 : 1/11/2023

モデル概要

このモデルは動画行動認識のための深層学習モデルで、VideoMAEアーキテクチャに基づき、自己教師あり学習で事前学習後、特定の行動認識タスクでファインチューニングされています。

モデル特徴

効率的な動画理解

VideoMAEアーキテクチャを採用し、マスク付き自己符号化器による効率的な動画表現学習を実現

2段階トレーニング

まずSSv2データセットで事前学習し、次にRWF-2000データセットでファインチューニングすることで、特定タスクの性能を向上

混合精度トレーニング

FP16混合精度トレーニングを使用し、トレーニング効率を向上

モデル能力

動画行動認識

時系列行動分析

動画内容理解

使用事例

セキュリティ監視

暴力行為検知

監視カメラ映像中の暴力行為を識別

スポーツ分析

選手動作認識

選手の特定の動作やテクニックを識別

🚀 videomae-base-short-finetuned-ssv2-finetuned-rwf2000-epochs8-batch8-fp16

このモデルは、MCG - NJU/videomae-base-short-finetuned-ssv2 を未知のデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.4339
正解率: 0.4643

🚀 クイックスタート

このモデルは、特定のビデオ関連タスクに対して、事前学習済みのモデルをファインチューニングしたものです。以下のセクションでは、モデルの詳細や学習手順について説明します。

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 5e - 05
学習バッチサイズ (train_batch_size): 2
評価バッチサイズ (eval_batch_size): 2
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 8
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e - 08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップ比率 (lr_scheduler_warmup_ratio): 0.1
学習ステップ数 (training_steps): 3200
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	正解率
0.4239	0.06	200	0.3879	0.82
0.4179	1.06	400	1.1635	0.6162
0.4329	2.06	600	0.8215	0.63
0.3051	3.06	800	0.5541	0.7412
0.172	4.06	1000	0.4696	0.8363
0.1955	5.06	1200	0.5384	0.78
0.2301	6.06	1400	1.3358	0.635
0.2995	7.06	1600	1.0372	0.7087
0.3789	8.06	1800	0.8670	0.7412
0.2525	9.06	2000	0.5886	0.8225
0.1846	10.06	2200	0.7851	0.735
0.1547	11.06	2400	0.8905	0.7638
0.2501	12.06	2600	0.9807	0.76
0.1046	13.06	2800	1.0419	0.7438
0.0786	14.06	3000	1.0128	0.7538
0.0178	15.06	3200	1.0156	0.75

フレームワークのバージョン

Transformers 4.25.1
Pytorch 1.13.1+cu117
Datasets 2.8.0
Tokenizers 0.13.2

📄 ライセンス

このモデルは、CC - BY - NC - 4.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase