Videomae Base Finetuned Ucf101 Subset
基于 VideoMAE 基础模型在 UCF101 动作识别数据集子集上微调的视频理解模型
下载量 39
发布时间 : 1/12/2025
模型简介
该模型是针对视频动作识别任务优化的 Transformer 架构模型,能够识别视频中的特定动作类别
模型特点
高效视频理解
采用 VideoMAE 架构,通过掩码自编码预训练实现高效视频特征学习
动作识别优化
在 UCF101 数据集上微调,专门针对人类动作识别任务优化
轻量级微调
基于预训练模型进行轻量级微调,实现高性能的同时减少训练成本
模型能力
视频动作分类
时序特征提取
视频内容理解
使用案例
智能监控
异常行为检测
识别监控视频中的异常或特定行为模式
体育分析
运动动作识别
识别和分析运动员的特定动作
🚀 视频MAE基础模型微调UCF101子集
本模型是基于Transformer架构的视频分类模型,它在未知数据集上对 MCG-NJU/videomae-base 进行微调,在评估集上取得了良好的效果。
🚀 快速开始
本模型是 MCG-NJU/videomae-base 在未知数据集上的微调版本。它在评估集上取得了以下结果:
- 损失值:0.5570
- 准确率:0.8630
📚 详细文档
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e - 05
- 训练批次大小:64
- 评估批次大小:64
- 随机种子:42
- 优化器:使用
adamw_torch
,其中betas=(0.9, 0.999)
,epsilon=1e - 08
,无额外优化器参数 - 学习率调度器类型:线性
- 学习率调度器预热比例:0.1
- 训练步数:1920
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 准确率 |
---|---|---|---|---|
0.4529 | 0.0083 | 16 | 1.0265 | 0.7074 |
0.2409 | 1.0083 | 32 | 0.8731 | 0.7630 |
0.21 | 2.0083 | 48 | 0.8199 | 0.7481 |
0.149 | 3.0083 | 64 | 0.8314 | 0.7593 |
0.1131 | 4.0083 | 80 | 0.7753 | 0.7741 |
0.1177 | 5.0083 | 96 | 0.7645 | 0.7667 |
0.1106 | 6.0083 | 112 | 0.8109 | 0.7407 |
0.1346 | 7.0083 | 128 | 0.6663 | 0.7963 |
0.1054 | 8.0083 | 144 | 0.7931 | 0.7852 |
0.1302 | 9.0083 | 160 | 0.8380 | 0.7593 |
0.1201 | 10.0083 | 176 | 0.7758 | 0.7704 |
0.0992 | 11.0083 | 192 | 0.9272 | 0.7259 |
0.11 | 12.0083 | 208 | 0.8363 | 0.7667 |
0.122 | 13.0083 | 224 | 0.6285 | 0.8111 |
0.1336 | 14.0083 | 240 | 0.6990 | 0.8185 |
0.0996 | 15.0083 | 256 | 0.7357 | 0.8037 |
0.0711 | 16.0083 | 272 | 0.6621 | 0.8222 |
0.0839 | 17.0083 | 288 | 0.7744 | 0.7815 |
0.0865 | 18.0083 | 304 | 0.6456 | 0.8222 |
0.0607 | 19.0083 | 320 | 0.7278 | 0.7963 |
0.0672 | 20.0083 | 336 | 0.7863 | 0.8 |
0.0575 | 21.0083 | 352 | 0.6789 | 0.8185 |
0.0527 | 22.0083 | 368 | 0.6201 | 0.8148 |
0.0856 | 23.0083 | 384 | 0.6439 | 0.8 |
0.0621 | 24.0083 | 400 | 0.8606 | 0.7704 |
0.0725 | 25.0083 | 416 | 0.6359 | 0.8222 |
0.0659 | 26.0083 | 432 | 0.6513 | 0.8259 |
0.036 | 27.0083 | 448 | 0.6300 | 0.8111 |
0.0337 | 28.0083 | 464 | 0.6411 | 0.8444 |
0.0249 | 29.0083 | 480 | 0.5657 | 0.8593 |
0.0236 | 30.0083 | 496 | 0.5585 | 0.8296 |
0.0488 | 31.0083 | 512 | 0.6617 | 0.8148 |
0.0327 | 32.0083 | 528 | 0.5680 | 0.8407 |
0.0367 | 33.0083 | 544 | 0.7030 | 0.7963 |
0.0226 | 34.0083 | 560 | 0.8866 | 0.7593 |
0.0277 | 35.0083 | 576 | 0.8434 | 0.7963 |
0.0136 | 36.0083 | 592 | 0.7818 | 0.7778 |
0.017 | 37.0083 | 608 | 0.7851 | 0.7593 |
0.0391 | 38.0083 | 624 | 1.0256 | 0.7481 |
0.0211 | 39.0083 | 640 | 0.9225 | 0.7593 |
0.0322 | 40.0083 | 656 | 0.7322 | 0.7926 |
0.0203 | 41.0083 | 672 | 0.7956 | 0.7852 |
0.0223 | 42.0083 | 688 | 0.8495 | 0.7704 |
0.0228 | 43.0083 | 704 | 0.6640 | 0.8259 |
0.0115 | 44.0083 | 720 | 0.9645 | 0.7593 |
0.0222 | 45.0083 | 736 | 0.6595 | 0.8333 |
0.0165 | 46.0083 | 752 | 0.7120 | 0.7963 |
0.0165 | 47.0083 | 768 | 0.8027 | 0.8 |
0.0166 | 48.0083 | 784 | 0.8485 | 0.7963 |
0.0097 | 49.0083 | 800 | 0.8504 | 0.7926 |
0.0257 | 50.0083 | 816 | 0.7934 | 0.7963 |
0.0172 | 51.0083 | 832 | 0.7562 | 0.8037 |
0.0064 | 52.0083 | 848 | 0.7097 | 0.8111 |
0.0052 | 53.0083 | 864 | 0.7537 | 0.7963 |
0.012 | 54.0083 | 880 | 0.7386 | 0.8074 |
0.0174 | 55.0083 | 896 | 0.6894 | 0.8222 |
0.0151 | 56.0083 | 912 | 0.9360 | 0.7667 |
0.0081 | 57.0083 | 928 | 0.7102 | 0.8222 |
0.0142 | 58.0083 | 944 | 0.7866 | 0.8111 |
0.0169 | 59.0083 | 960 | 0.6516 | 0.8370 |
0.0149 | 60.0083 | 976 | 1.0039 | 0.7556 |
0.0106 | 61.0083 | 992 | 0.6570 | 0.8407 |
0.005 | 62.0083 | 1008 | 0.7252 | 0.8037 |
0.0115 | 63.0083 | 1024 | 0.6913 | 0.8333 |
0.0059 | 64.0083 | 1040 | 0.6858 | 0.8481 |
0.0225 | 65.0083 | 1056 | 0.7342 | 0.8148 |
0.0151 | 66.0083 | 1072 | 0.6860 | 0.8259 |
0.0098 | 67.0083 | 1088 | 0.7041 | 0.8296 |
0.0097 | 68.0083 | 1104 | 0.7321 | 0.8185 |
0.014 | 69.0083 | 1120 | 0.6251 | 0.8481 |
0.0252 | 70.0083 | 1136 | 0.6771 | 0.8370 |
0.0052 | 71.0083 | 1152 | 0.7527 | 0.8 |
0.0189 | 72.0083 | 1168 | 0.6936 | 0.8222 |
0.0038 | 73.0083 | 1184 | 0.6541 | 0.8296 |
0.0027 | 74.0083 | 1200 | 0.7257 | 0.8074 |
0.0028 | 75.0083 | 1216 | 0.6686 | 0.8185 |
0.0034 | 76.0083 | 1232 | 0.6239 | 0.8370 |
0.0111 | 77.0083 | 1248 | 0.7719 | 0.7926 |
0.009 | 78.0083 | 1264 | 0.6882 | 0.8185 |
0.0038 | 79.0083 | 1280 | 0.7040 | 0.8222 |
0.005 | 80.0083 | 1296 | 0.6955 | 0.8370 |
0.003 | 81.0083 | 1312 | 0.6797 | 0.8481 |
0.0035 | 82.0083 | 1328 | 0.6548 | 0.8370 |
0.0029 | 83.0083 | 1344 | 0.6407 | 0.8370 |
0.0131 | 84.0083 | 1360 | 0.6152 | 0.8407 |
0.0026 | 85.0083 | 1376 | 0.5863 | 0.8444 |
0.0048 | 86.0083 | 1392 | 0.6048 | 0.8519 |
0.0032 | 87.0083 | 1408 | 0.6064 | 0.8481 |
0.0067 | 88.0083 | 1424 | 0.6492 | 0.8370 |
0.0077 | 89.0083 | 1440 | 0.7520 | 0.7852 |
0.012 | 90.0083 | 1456 | 0.7662 | 0.8037 |
0.0092 | 91.0083 | 1472 | 0.7106 | 0.8074 |
0.0034 | 92.0083 | 1488 | 0.7589 | 0.8111 |
0.0042 | 93.0083 | 1504 | 0.6382 | 0.8296 |
0.0053 | 94.0083 | 1520 | 0.6153 | 0.8519 |
0.0038 | 95.0083 | 1536 | 0.6227 | 0.8370 |
0.002 | 96.0083 | 1552 | 0.6424 | 0.8407 |
0.0063 | 97.0083 | 1568 | 0.6215 | 0.8481 |
0.0021 | 98.0083 | 1584 | 0.6355 | 0.8333 |
0.0022 | 99.0083 | 1600 | 0.6141 | 0.8407 |
0.002 | 100.0083 | 1616 | 0.5682 | 0.8519 |
0.0058 | 101.0083 | 1632 | 0.5804 | 0.8519 |
0.0027 | 102.0083 | 1648 | 0.5724 | 0.8556 |
0.0026 | 103.0083 | 1664 | 0.5557 | 0.8630 |
0.0016 | 104.0083 | 1680 | 0.5465 | 0.8593 |
0.0018 | 105.0083 | 1696 | 0.5636 | 0.8630 |
0.0022 | 106.0083 | 1712 | 0.5932 | 0.8519 |
0.0018 | 107.0083 | 1728 | 0.5884 | 0.8593 |
0.0018 | 108.0083 | 1744 | 0.5960 | 0.8519 |
0.0041 | 109.0083 | 1760 | 0.5984 | 0.8556 |
0.0019 | 110.0083 | 1776 | 0.6015 | 0.8519 |
0.0031 | 111.0083 | 1792 | 0.5941 | 0.8593 |
0.0056 | 112.0083 | 1808 | 0.5957 | 0.8593 |
0.0014 | 113.0083 | 1824 | 0.6007 | 0.8593 |
0.0145 | 114.0083 | 1840 | 0.6138 | 0.8444 |
0.002 | 115.0083 | 1856 | 0.6205 | 0.8407 |
0.0046 | 116.0083 | 1872 | 0.6194 | 0.8444 |
0.0018 | 117.0083 | 1888 | 0.6189 | 0.8444 |
0.0023 | 118.0083 | 1904 | 0.6391 | 0.8444 |
0.0021 | 119.0083 | 1920 | 0.6227 | 0.8481 |
框架版本
- Transformers 4.48.0
- Pytorch 2.5.1+cu118
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本模型采用知识共享署名 - 非商业性使用 4.0 国际许可协议(CC BY - NC 4.0)。
Timesformer Base Finetuned K400
TimeSformer是基于Kinetics-400数据集预训练的视频分类模型,采用时空注意力机制实现视频理解。
视频处理
Transformers

T
facebook
108.61k
33
Vivit B 16x2 Kinetics400
MIT
ViViT是对视觉变换器(ViT)的扩展,适用于视频处理,特别适合视频分类任务。
视频处理
Transformers

V
google
56.94k
32
Animatediff Motion Lora Zoom In
动态LoRAs能够为动画添加特定类型的运动效果,如缩放、平移、倾斜和旋转。
视频处理
A
guoyww
51.43k
8
Videomae Base
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测被掩码视频块的像素值学习视频内部表示。
视频处理
Transformers

V
MCG-NJU
48.66k
45
Dfot
MIT
一种新颖的视频扩散模型,能够根据任意数量的上下文帧生成高质量视频
视频处理
D
kiwhansong
47.19k
6
Videomae Base Finetuned Kinetics
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Kinetics-400数据集上微调后可用于视频分类任务。
视频处理
Transformers

V
MCG-NJU
44.91k
34
Mochi 1 Preview
Apache-2.0
由Genmo开发的高保真视频生成模型,具有卓越的运动表现力和精准的提示跟随能力
视频处理 英语
M
genmo
27.13k
1,216
Animatediff Motion Lora Zoom Out
动态LoRAs能为动画添加特定类型的运动效果
视频处理
A
guoyww
11.43k
5
Ppo SpaceInvadersNoFrameskip V4
这是一个基于PPO算法的强化学习智能体,专门用于在SpaceInvadersNoFrameskip-v4游戏环境中进行训练和游戏。
视频处理
P
sb3
8,999
0
Stable Video Diffusion Img2vid Xt 1 1
其他
Stable Video Diffusion (SVD) 1.1 是一款基于扩散模型的图像转视频工具,能够将静态图像作为条件帧生成短视频片段。
视频处理
S
vdo
8,560
28
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98