Videomae Base Finetuned Subset
基於MCG-NJU/videomae-base模型在未知數據集上微調的視頻理解模型,準確率達67.13%
下載量 2
發布時間 : 12/30/2023
模型概述
該模型是VideoMAE基礎模型的微調版本,專注於視頻內容理解任務,具體應用場景需補充
模型特點
視頻特徵提取
基於VideoMAE架構的視頻掩碼自編碼預訓練,擅長捕捉視頻時序特徵
高效微調
在基礎模型上進行遷移學習,適應特定視頻理解任務
模型能力
視頻內容分類
時序特徵提取
視頻語義理解
使用案例
視頻分析
動作識別
識別視頻中的人類動作或行為
準確率67.13%(基於當前評估集)
場景分類
對視頻場景內容進行分類
🚀 videomae-base-finetuned-subset
這是一個在未知數據集上對 MCG-NJU/videomae-base 進行微調後的模型。該模型在評估集上取得了以下成果:
- 損失值:0.7700
- 準確率:0.6713
🚀 快速開始
該模型是基於 MCG-NJU/videomae-base
微調而來,可用於視頻相關的任務。你可以根據自身需求,在其基礎上進一步開發應用。
📚 詳細文檔
模型描述
此模型是對 MCG-NJU/videomae-base
的微調版本,不過關於微調的具體細節以及該模型的更多信息暫未提供。
預期用途與限制
目前尚未提供該模型的預期用途和限制相關信息。
訓練和評估數據
目前尚未提供訓練和評估所使用的數據相關信息。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:4
- 評估批次大小:4
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 學習率調度器預熱比例:0.1
- 訓練步數:11100
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 準確率 |
---|---|---|---|---|
1.638 | 0.01 | 112 | 1.5736 | 0.1567 |
1.5845 | 1.01 | 224 | 1.5841 | 0.2719 |
1.4522 | 2.01 | 336 | 1.6293 | 0.2350 |
1.3111 | 3.01 | 448 | 1.0450 | 0.6037 |
1.2849 | 4.01 | 560 | 1.3186 | 0.4608 |
1.3246 | 5.01 | 672 | 1.1759 | 0.5161 |
1.3801 | 6.01 | 784 | 1.2188 | 0.4608 |
1.3228 | 7.01 | 896 | 0.9895 | 0.6406 |
0.9706 | 8.01 | 1008 | 1.1265 | 0.6129 |
1.2483 | 9.01 | 1120 | 1.2352 | 0.5484 |
0.9394 | 10.01 | 1232 | 1.2345 | 0.4977 |
0.8285 | 11.01 | 1344 | 0.8702 | 0.6682 |
1.1175 | 12.01 | 1456 | 0.9073 | 0.6406 |
1.093 | 13.01 | 1568 | 0.9210 | 0.5576 |
0.8364 | 14.01 | 1680 | 0.9316 | 0.6590 |
0.766 | 15.01 | 1792 | 0.7628 | 0.7742 |
0.7702 | 16.01 | 1904 | 0.8982 | 0.6682 |
0.9184 | 17.01 | 2016 | 1.1010 | 0.6221 |
0.7309 | 18.01 | 2128 | 0.8245 | 0.6866 |
0.9575 | 19.01 | 2240 | 0.9029 | 0.7097 |
0.8233 | 20.01 | 2352 | 1.2445 | 0.5161 |
0.7643 | 21.01 | 2464 | 0.9558 | 0.6498 |
0.6722 | 22.01 | 2576 | 1.1864 | 0.5714 |
0.8441 | 23.01 | 2688 | 0.9690 | 0.7235 |
0.7971 | 24.01 | 2800 | 0.9349 | 0.6774 |
0.8296 | 25.01 | 2912 | 1.4574 | 0.4516 |
0.8613 | 26.01 | 3024 | 0.8688 | 0.7189 |
0.5614 | 27.01 | 3136 | 1.2101 | 0.6083 |
0.6971 | 28.01 | 3248 | 1.3006 | 0.4654 |
0.9642 | 29.01 | 3360 | 0.9573 | 0.6313 |
0.836 | 30.01 | 3472 | 1.1268 | 0.6221 |
0.7166 | 31.01 | 3584 | 1.2384 | 0.5622 |
0.9302 | 32.01 | 3696 | 1.0620 | 0.5991 |
0.7729 | 33.01 | 3808 | 1.3253 | 0.5622 |
0.8005 | 34.01 | 3920 | 1.4979 | 0.4931 |
0.8025 | 35.01 | 4032 | 0.9786 | 0.5668 |
0.881 | 36.01 | 4144 | 0.8477 | 0.6544 |
0.5343 | 37.01 | 4256 | 1.3107 | 0.6544 |
0.5611 | 38.01 | 4368 | 0.9520 | 0.6866 |
0.6824 | 39.01 | 4480 | 0.7909 | 0.7281 |
0.6146 | 40.01 | 4592 | 1.0886 | 0.6175 |
1.0098 | 41.01 | 4704 | 1.0434 | 0.6313 |
0.5555 | 42.01 | 4816 | 0.9603 | 0.6912 |
0.4578 | 43.01 | 4928 | 1.2341 | 0.5945 |
0.5883 | 44.01 | 5040 | 1.2559 | 0.6359 |
0.3579 | 45.01 | 5152 | 1.2459 | 0.5622 |
0.7936 | 46.01 | 5264 | 1.2685 | 0.6083 |
0.4331 | 47.01 | 5376 | 0.9118 | 0.7097 |
0.8989 | 48.01 | 5488 | 1.3406 | 0.5806 |
0.7674 | 49.01 | 5600 | 1.5231 | 0.5484 |
0.8136 | 50.01 | 5712 | 1.2210 | 0.6221 |
0.6583 | 51.01 | 5824 | 0.9262 | 0.7051 |
0.4305 | 52.01 | 5936 | 1.0339 | 0.6959 |
0.7197 | 53.01 | 6048 | 1.1948 | 0.6682 |
0.7143 | 54.01 | 6160 | 1.1851 | 0.6774 |
0.5441 | 55.01 | 6272 | 1.0351 | 0.6636 |
0.6443 | 56.01 | 6384 | 1.0297 | 0.6866 |
0.7747 | 57.01 | 6496 | 1.5174 | 0.5991 |
0.5943 | 58.01 | 6608 | 1.1961 | 0.6452 |
0.5781 | 59.01 | 6720 | 1.2187 | 0.7143 |
0.6913 | 60.01 | 6832 | 1.1590 | 0.6728 |
0.6186 | 61.01 | 6944 | 1.0495 | 0.7235 |
0.5185 | 62.01 | 7056 | 0.9844 | 0.7051 |
0.4077 | 63.01 | 7168 | 1.3194 | 0.6313 |
0.8217 | 64.01 | 7280 | 1.2620 | 0.6636 |
0.5273 | 65.01 | 7392 | 1.0395 | 0.7373 |
0.9002 | 66.01 | 7504 | 1.5225 | 0.5806 |
0.5763 | 67.01 | 7616 | 1.2559 | 0.6406 |
1.0535 | 68.01 | 7728 | 1.2646 | 0.6498 |
1.0064 | 69.01 | 7840 | 1.1533 | 0.6866 |
0.332 | 70.01 | 7952 | 1.0438 | 0.7005 |
0.3978 | 71.01 | 8064 | 1.0248 | 0.7051 |
0.4459 | 72.01 | 8176 | 1.0926 | 0.7465 |
0.511 | 73.01 | 8288 | 1.1233 | 0.7143 |
0.7933 | 74.01 | 8400 | 1.1535 | 0.7189 |
0.3739 | 75.01 | 8512 | 1.3056 | 0.6912 |
0.6976 | 76.01 | 8624 | 1.3159 | 0.6682 |
0.5453 | 77.01 | 8736 | 1.4541 | 0.6359 |
0.2915 | 78.01 | 8848 | 1.2601 | 0.7051 |
0.6552 | 79.01 | 8960 | 1.5338 | 0.6544 |
0.5067 | 80.01 | 9072 | 1.6630 | 0.6037 |
0.5134 | 81.01 | 9184 | 1.4740 | 0.6406 |
0.7271 | 82.01 | 9296 | 1.2171 | 0.7097 |
0.719 | 83.01 | 9408 | 1.3653 | 0.6406 |
0.1955 | 84.01 | 9520 | 1.4696 | 0.6544 |
0.5761 | 85.01 | 9632 | 1.3334 | 0.6636 |
0.7094 | 86.01 | 9744 | 1.2673 | 0.6912 |
0.5186 | 87.01 | 9856 | 1.3147 | 0.6866 |
0.6876 | 88.01 | 9968 | 1.2622 | 0.7051 |
0.4912 | 89.01 | 10080 | 1.3054 | 0.7189 |
0.194 | 90.01 | 10192 | 1.3244 | 0.6959 |
0.6916 | 91.01 | 10304 | 1.1800 | 0.7327 |
0.5735 | 92.01 | 10416 | 1.1056 | 0.7419 |
0.2122 | 93.01 | 10528 | 1.1070 | 0.7281 |
0.1434 | 94.01 | 10640 | 1.1776 | 0.7097 |
0.4681 | 95.01 | 10752 | 1.1505 | 0.7327 |
0.2856 | 96.01 | 10864 | 1.1203 | 0.7235 |
0.6509 | 97.01 | 10976 | 1.1502 | 0.7189 |
0.1881 | 98.01 | 11088 | 1.1474 | 0.7189 |
0.5577 | 99.0 | 11100 | 1.1473 | 0.7189 |
框架版本
- Transformers 4.36.2
- Pytorch 1.13.1
- Datasets 2.16.1
- Tokenizers 0.15.0
📄 許可證
該模型採用 CC BY-NC 4.0 許可證。
Timesformer Base Finetuned K400
TimeSformer是基於Kinetics-400數據集預訓練的視頻分類模型,採用時空注意力機制實現視頻理解。
視頻處理
Transformers

T
facebook
108.61k
33
Vivit B 16x2 Kinetics400
MIT
ViViT是對視覺變換器(ViT)的擴展,適用於視頻處理,特別適合視頻分類任務。
視頻處理
Transformers

V
google
56.94k
32
Animatediff Motion Lora Zoom In
動態LoRAs能夠為動畫添加特定類型的運動效果,如縮放、平移、傾斜和旋轉。
視頻處理
A
guoyww
51.43k
8
Videomae Base
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過預測被掩碼視頻塊的像素值學習視頻內部表示。
視頻處理
Transformers

V
MCG-NJU
48.66k
45
Dfot
MIT
一種新穎的視頻擴散模型,能夠根據任意數量的上下文幀生成高質量視頻
視頻處理
D
kiwhansong
47.19k
6
Videomae Base Finetuned Kinetics
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,在Kinetics-400數據集上微調後可用於視頻分類任務。
視頻處理
Transformers

V
MCG-NJU
44.91k
34
Mochi 1 Preview
Apache-2.0
由Genmo開發的高保真視頻生成模型,具有卓越的運動表現力和精準的提示跟隨能力
視頻處理 英語
M
genmo
27.13k
1,216
Animatediff Motion Lora Zoom Out
動態LoRAs能為動畫添加特定類型的運動效果
視頻處理
A
guoyww
11.43k
5
Ppo SpaceInvadersNoFrameskip V4
這是一個基於PPO算法的強化學習智能體,專門用於在SpaceInvadersNoFrameskip-v4遊戲環境中進行訓練和遊戲。
視頻處理
P
sb3
8,999
0
Stable Video Diffusion Img2vid Xt 1 1
其他
Stable Video Diffusion (SVD) 1.1 是一款基於擴散模型的圖像轉視頻工具,能夠將靜態圖像作為條件幀生成短視頻片段。
視頻處理
S
vdo
8,560
28
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98