Videomae Base Finetuned Ucf101 Subset
基於 VideoMAE 基礎模型在 UCF101 動作識別數據集子集上微調的視頻理解模型
下載量 39
發布時間 : 1/12/2025
模型概述
該模型是針對視頻動作識別任務優化的 Transformer 架構模型,能夠識別視頻中的特定動作類別
模型特點
高效視頻理解
採用 VideoMAE 架構,通過掩碼自編碼預訓練實現高效視頻特徵學習
動作識別優化
在 UCF101 數據集上微調,專門針對人類動作識別任務優化
輕量級微調
基於預訓練模型進行輕量級微調,實現高性能的同時減少訓練成本
模型能力
視頻動作分類
時序特徵提取
視頻內容理解
使用案例
智能監控
異常行為檢測
識別監控視頻中的異常或特定行為模式
體育分析
運動動作識別
識別和分析運動員的特定動作
🚀 視頻MAE基礎模型微調UCF101子集
本模型是基於Transformer架構的視頻分類模型,它在未知數據集上對 MCG-NJU/videomae-base 進行微調,在評估集上取得了良好的效果。
🚀 快速開始
本模型是 MCG-NJU/videomae-base 在未知數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值:0.5570
- 準確率:0.8630
📚 詳細文檔
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e - 05
- 訓練批次大小:64
- 評估批次大小:64
- 隨機種子:42
- 優化器:使用
adamw_torch
,其中betas=(0.9, 0.999)
,epsilon=1e - 08
,無額外優化器參數 - 學習率調度器類型:線性
- 學習率調度器預熱比例:0.1
- 訓練步數:1920
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 準確率 |
---|---|---|---|---|
0.4529 | 0.0083 | 16 | 1.0265 | 0.7074 |
0.2409 | 1.0083 | 32 | 0.8731 | 0.7630 |
0.21 | 2.0083 | 48 | 0.8199 | 0.7481 |
0.149 | 3.0083 | 64 | 0.8314 | 0.7593 |
0.1131 | 4.0083 | 80 | 0.7753 | 0.7741 |
0.1177 | 5.0083 | 96 | 0.7645 | 0.7667 |
0.1106 | 6.0083 | 112 | 0.8109 | 0.7407 |
0.1346 | 7.0083 | 128 | 0.6663 | 0.7963 |
0.1054 | 8.0083 | 144 | 0.7931 | 0.7852 |
0.1302 | 9.0083 | 160 | 0.8380 | 0.7593 |
0.1201 | 10.0083 | 176 | 0.7758 | 0.7704 |
0.0992 | 11.0083 | 192 | 0.9272 | 0.7259 |
0.11 | 12.0083 | 208 | 0.8363 | 0.7667 |
0.122 | 13.0083 | 224 | 0.6285 | 0.8111 |
0.1336 | 14.0083 | 240 | 0.6990 | 0.8185 |
0.0996 | 15.0083 | 256 | 0.7357 | 0.8037 |
0.0711 | 16.0083 | 272 | 0.6621 | 0.8222 |
0.0839 | 17.0083 | 288 | 0.7744 | 0.7815 |
0.0865 | 18.0083 | 304 | 0.6456 | 0.8222 |
0.0607 | 19.0083 | 320 | 0.7278 | 0.7963 |
0.0672 | 20.0083 | 336 | 0.7863 | 0.8 |
0.0575 | 21.0083 | 352 | 0.6789 | 0.8185 |
0.0527 | 22.0083 | 368 | 0.6201 | 0.8148 |
0.0856 | 23.0083 | 384 | 0.6439 | 0.8 |
0.0621 | 24.0083 | 400 | 0.8606 | 0.7704 |
0.0725 | 25.0083 | 416 | 0.6359 | 0.8222 |
0.0659 | 26.0083 | 432 | 0.6513 | 0.8259 |
0.036 | 27.0083 | 448 | 0.6300 | 0.8111 |
0.0337 | 28.0083 | 464 | 0.6411 | 0.8444 |
0.0249 | 29.0083 | 480 | 0.5657 | 0.8593 |
0.0236 | 30.0083 | 496 | 0.5585 | 0.8296 |
0.0488 | 31.0083 | 512 | 0.6617 | 0.8148 |
0.0327 | 32.0083 | 528 | 0.5680 | 0.8407 |
0.0367 | 33.0083 | 544 | 0.7030 | 0.7963 |
0.0226 | 34.0083 | 560 | 0.8866 | 0.7593 |
0.0277 | 35.0083 | 576 | 0.8434 | 0.7963 |
0.0136 | 36.0083 | 592 | 0.7818 | 0.7778 |
0.017 | 37.0083 | 608 | 0.7851 | 0.7593 |
0.0391 | 38.0083 | 624 | 1.0256 | 0.7481 |
0.0211 | 39.0083 | 640 | 0.9225 | 0.7593 |
0.0322 | 40.0083 | 656 | 0.7322 | 0.7926 |
0.0203 | 41.0083 | 672 | 0.7956 | 0.7852 |
0.0223 | 42.0083 | 688 | 0.8495 | 0.7704 |
0.0228 | 43.0083 | 704 | 0.6640 | 0.8259 |
0.0115 | 44.0083 | 720 | 0.9645 | 0.7593 |
0.0222 | 45.0083 | 736 | 0.6595 | 0.8333 |
0.0165 | 46.0083 | 752 | 0.7120 | 0.7963 |
0.0165 | 47.0083 | 768 | 0.8027 | 0.8 |
0.0166 | 48.0083 | 784 | 0.8485 | 0.7963 |
0.0097 | 49.0083 | 800 | 0.8504 | 0.7926 |
0.0257 | 50.0083 | 816 | 0.7934 | 0.7963 |
0.0172 | 51.0083 | 832 | 0.7562 | 0.8037 |
0.0064 | 52.0083 | 848 | 0.7097 | 0.8111 |
0.0052 | 53.0083 | 864 | 0.7537 | 0.7963 |
0.012 | 54.0083 | 880 | 0.7386 | 0.8074 |
0.0174 | 55.0083 | 896 | 0.6894 | 0.8222 |
0.0151 | 56.0083 | 912 | 0.9360 | 0.7667 |
0.0081 | 57.0083 | 928 | 0.7102 | 0.8222 |
0.0142 | 58.0083 | 944 | 0.7866 | 0.8111 |
0.0169 | 59.0083 | 960 | 0.6516 | 0.8370 |
0.0149 | 60.0083 | 976 | 1.0039 | 0.7556 |
0.0106 | 61.0083 | 992 | 0.6570 | 0.8407 |
0.005 | 62.0083 | 1008 | 0.7252 | 0.8037 |
0.0115 | 63.0083 | 1024 | 0.6913 | 0.8333 |
0.0059 | 64.0083 | 1040 | 0.6858 | 0.8481 |
0.0225 | 65.0083 | 1056 | 0.7342 | 0.8148 |
0.0151 | 66.0083 | 1072 | 0.6860 | 0.8259 |
0.0098 | 67.0083 | 1088 | 0.7041 | 0.8296 |
0.0097 | 68.0083 | 1104 | 0.7321 | 0.8185 |
0.014 | 69.0083 | 1120 | 0.6251 | 0.8481 |
0.0252 | 70.0083 | 1136 | 0.6771 | 0.8370 |
0.0052 | 71.0083 | 1152 | 0.7527 | 0.8 |
0.0189 | 72.0083 | 1168 | 0.6936 | 0.8222 |
0.0038 | 73.0083 | 1184 | 0.6541 | 0.8296 |
0.0027 | 74.0083 | 1200 | 0.7257 | 0.8074 |
0.0028 | 75.0083 | 1216 | 0.6686 | 0.8185 |
0.0034 | 76.0083 | 1232 | 0.6239 | 0.8370 |
0.0111 | 77.0083 | 1248 | 0.7719 | 0.7926 |
0.009 | 78.0083 | 1264 | 0.6882 | 0.8185 |
0.0038 | 79.0083 | 1280 | 0.7040 | 0.8222 |
0.005 | 80.0083 | 1296 | 0.6955 | 0.8370 |
0.003 | 81.0083 | 1312 | 0.6797 | 0.8481 |
0.0035 | 82.0083 | 1328 | 0.6548 | 0.8370 |
0.0029 | 83.0083 | 1344 | 0.6407 | 0.8370 |
0.0131 | 84.0083 | 1360 | 0.6152 | 0.8407 |
0.0026 | 85.0083 | 1376 | 0.5863 | 0.8444 |
0.0048 | 86.0083 | 1392 | 0.6048 | 0.8519 |
0.0032 | 87.0083 | 1408 | 0.6064 | 0.8481 |
0.0067 | 88.0083 | 1424 | 0.6492 | 0.8370 |
0.0077 | 89.0083 | 1440 | 0.7520 | 0.7852 |
0.012 | 90.0083 | 1456 | 0.7662 | 0.8037 |
0.0092 | 91.0083 | 1472 | 0.7106 | 0.8074 |
0.0034 | 92.0083 | 1488 | 0.7589 | 0.8111 |
0.0042 | 93.0083 | 1504 | 0.6382 | 0.8296 |
0.0053 | 94.0083 | 1520 | 0.6153 | 0.8519 |
0.0038 | 95.0083 | 1536 | 0.6227 | 0.8370 |
0.002 | 96.0083 | 1552 | 0.6424 | 0.8407 |
0.0063 | 97.0083 | 1568 | 0.6215 | 0.8481 |
0.0021 | 98.0083 | 1584 | 0.6355 | 0.8333 |
0.0022 | 99.0083 | 1600 | 0.6141 | 0.8407 |
0.002 | 100.0083 | 1616 | 0.5682 | 0.8519 |
0.0058 | 101.0083 | 1632 | 0.5804 | 0.8519 |
0.0027 | 102.0083 | 1648 | 0.5724 | 0.8556 |
0.0026 | 103.0083 | 1664 | 0.5557 | 0.8630 |
0.0016 | 104.0083 | 1680 | 0.5465 | 0.8593 |
0.0018 | 105.0083 | 1696 | 0.5636 | 0.8630 |
0.0022 | 106.0083 | 1712 | 0.5932 | 0.8519 |
0.0018 | 107.0083 | 1728 | 0.5884 | 0.8593 |
0.0018 | 108.0083 | 1744 | 0.5960 | 0.8519 |
0.0041 | 109.0083 | 1760 | 0.5984 | 0.8556 |
0.0019 | 110.0083 | 1776 | 0.6015 | 0.8519 |
0.0031 | 111.0083 | 1792 | 0.5941 | 0.8593 |
0.0056 | 112.0083 | 1808 | 0.5957 | 0.8593 |
0.0014 | 113.0083 | 1824 | 0.6007 | 0.8593 |
0.0145 | 114.0083 | 1840 | 0.6138 | 0.8444 |
0.002 | 115.0083 | 1856 | 0.6205 | 0.8407 |
0.0046 | 116.0083 | 1872 | 0.6194 | 0.8444 |
0.0018 | 117.0083 | 1888 | 0.6189 | 0.8444 |
0.0023 | 118.0083 | 1904 | 0.6391 | 0.8444 |
0.0021 | 119.0083 | 1920 | 0.6227 | 0.8481 |
框架版本
- Transformers 4.48.0
- Pytorch 2.5.1+cu118
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本模型採用知識共享署名 - 非商業性使用 4.0 國際許可協議(CC BY - NC 4.0)。
Timesformer Base Finetuned K400
TimeSformer是基於Kinetics-400數據集預訓練的視頻分類模型,採用時空注意力機制實現視頻理解。
視頻處理
Transformers

T
facebook
108.61k
33
Vivit B 16x2 Kinetics400
MIT
ViViT是對視覺變換器(ViT)的擴展,適用於視頻處理,特別適合視頻分類任務。
視頻處理
Transformers

V
google
56.94k
32
Animatediff Motion Lora Zoom In
動態LoRAs能夠為動畫添加特定類型的運動效果,如縮放、平移、傾斜和旋轉。
視頻處理
A
guoyww
51.43k
8
Videomae Base
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過預測被掩碼視頻塊的像素值學習視頻內部表示。
視頻處理
Transformers

V
MCG-NJU
48.66k
45
Dfot
MIT
一種新穎的視頻擴散模型,能夠根據任意數量的上下文幀生成高質量視頻
視頻處理
D
kiwhansong
47.19k
6
Videomae Base Finetuned Kinetics
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,在Kinetics-400數據集上微調後可用於視頻分類任務。
視頻處理
Transformers

V
MCG-NJU
44.91k
34
Mochi 1 Preview
Apache-2.0
由Genmo開發的高保真視頻生成模型,具有卓越的運動表現力和精準的提示跟隨能力
視頻處理 英語
M
genmo
27.13k
1,216
Animatediff Motion Lora Zoom Out
動態LoRAs能為動畫添加特定類型的運動效果
視頻處理
A
guoyww
11.43k
5
Ppo SpaceInvadersNoFrameskip V4
這是一個基於PPO算法的強化學習智能體,專門用於在SpaceInvadersNoFrameskip-v4遊戲環境中進行訓練和遊戲。
視頻處理
P
sb3
8,999
0
Stable Video Diffusion Img2vid Xt 1 1
其他
Stable Video Diffusion (SVD) 1.1 是一款基於擴散模型的圖像轉視頻工具,能夠將靜態圖像作為條件幀生成短視頻片段。
視頻處理
S
vdo
8,560
28
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98