VideoMAE開源視頻動作識別模型 - 基於Kinetics微調，準確率超92%！

首頁

Videomae Base Finetuned Kinetics 0408 Final 5sec Org Ab7 Val As123

由d2o2ji開發

基於VideoMAE架構的視頻動作識別模型，在Kinetics數據集上微調，準確率達92.25%

視頻處理

Transformers

#視頻動作識別 #高精度時序分析 #Kinetics微調

下載量 31

發布時間 : 4/8/2025

模型概述

該模型是基於VideoMAE架構的視頻理解模型，專門針對動作識別任務進行了優化。通過自監督預訓練和微調，能夠高效識別視頻中的動作類別。

模型特點

高準確率

在評估集上達到92.25%的準確率，表現優秀

高效微調

基於預訓練的VideoMAE模型進行微調，訓練效率高

5秒視頻處理

專門優化用於處理5秒時長的視頻片段

模型能力

視頻動作識別

視頻內容理解

時序特徵提取

使用案例

視頻分析

動作識別

識別視頻中的人類動作類別

92.25%的準確率

視頻內容分類

對短視頻內容進行分類標註

智能監控

異常行為檢測

檢測監控視頻中的異常動作

🚀 videomae-base-finetuned-kinetics-0408_final_5sec_org_ab7_val_as123

該模型是基於MCG - NJU/videomae - base - finetuned - kinetics在未知數據集上微調得到的版本。它在評估集上取得了以下結果：

損失值：0.3219
準確率：0.9225

🚀 快速開始

此部分文檔暫未提供快速開始的相關內容。

✨ 主要特性

此模型是微調版本，在評估集上有較好的表現，損失值較低且準確率較高。

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e - 05
訓練批次大小：8
評估批次大小：8
隨機種子：42
優化器：使用adamw_torch，其中betas=(0.9, 0.999)，epsilon = 1e - 08，無額外優化器參數
學習率調度器類型：線性
學習率調度器熱身比例：0.05
訓練步數：65800

訓練結果

訓練損失	輪數	步數	驗證損失	準確率
0.537	0.0100	659	0.3567	0.8740
0.0105	1.0100	1318	0.2819	0.9139
0.0039	2.0100	1977	0.3886	0.8858
0.0023	3.0100	2636	0.7164	0.8169
0.0222	4.0100	3295	0.2866	0.9264
0.0076	5.0100	3954	0.4126	0.9006
1.008	6.0100	4613	0.3480	0.9006
0.2086	7.0100	5272	0.2673	0.9311
0.4466	8.0100	5931	0.3282	0.9264
0.0067	9.0100	6590	0.3301	0.9116
1.3353	10.0100	7249	0.5289	0.8654
0.0003	11.0100	7908	0.6538	0.8732
0.0003	12.0100	8567	0.3669	0.9241
0.0184	13.0100	9226	0.3609	0.9171
0.0002	14.0100	9885	0.5037	0.8975
0.0001	15.0100	10544	0.4052	0.9202
0.0077	16.0100	11203	0.5142	0.9014
0.0001	17.0100	11862	0.3801	0.9241
0.0092	18.0100	12521	0.5826	0.9030
0.0012	19.0100	13180	0.4868	0.9155
0.0043	20.0100	13839	0.4497	0.9186
0.0001	21.0100	14498	0.7081	0.8858
0.0	22.0100	15157	0.8394	0.8725