Videomae Base Finetuned Subset
基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,准确率达67.13%
下载量 2
发布时间 : 12/30/2023
模型简介
该模型是VideoMAE基础模型的微调版本,专注于视频内容理解任务,具体应用场景需补充
模型特点
视频特征提取
基于VideoMAE架构的视频掩码自编码预训练,擅长捕捉视频时序特征
高效微调
在基础模型上进行迁移学习,适应特定视频理解任务
模型能力
视频内容分类
时序特征提取
视频语义理解
使用案例
视频分析
动作识别
识别视频中的人类动作或行为
准确率67.13%(基于当前评估集)
场景分类
对视频场景内容进行分类
🚀 videomae-base-finetuned-subset
这是一个在未知数据集上对 MCG-NJU/videomae-base 进行微调后的模型。该模型在评估集上取得了以下成果:
- 损失值:0.7700
- 准确率:0.6713
🚀 快速开始
该模型是基于 MCG-NJU/videomae-base
微调而来,可用于视频相关的任务。你可以根据自身需求,在其基础上进一步开发应用。
📚 详细文档
模型描述
此模型是对 MCG-NJU/videomae-base
的微调版本,不过关于微调的具体细节以及该模型的更多信息暂未提供。
预期用途与限制
目前尚未提供该模型的预期用途和限制相关信息。
训练和评估数据
目前尚未提供训练和评估所使用的数据相关信息。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:4
- 评估批次大小:4
- 随机种子:42
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 学习率调度器预热比例:0.1
- 训练步数:11100
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 准确率 |
---|---|---|---|---|
1.638 | 0.01 | 112 | 1.5736 | 0.1567 |
1.5845 | 1.01 | 224 | 1.5841 | 0.2719 |
1.4522 | 2.01 | 336 | 1.6293 | 0.2350 |
1.3111 | 3.01 | 448 | 1.0450 | 0.6037 |
1.2849 | 4.01 | 560 | 1.3186 | 0.4608 |
1.3246 | 5.01 | 672 | 1.1759 | 0.5161 |
1.3801 | 6.01 | 784 | 1.2188 | 0.4608 |
1.3228 | 7.01 | 896 | 0.9895 | 0.6406 |
0.9706 | 8.01 | 1008 | 1.1265 | 0.6129 |
1.2483 | 9.01 | 1120 | 1.2352 | 0.5484 |
0.9394 | 10.01 | 1232 | 1.2345 | 0.4977 |
0.8285 | 11.01 | 1344 | 0.8702 | 0.6682 |
1.1175 | 12.01 | 1456 | 0.9073 | 0.6406 |
1.093 | 13.01 | 1568 | 0.9210 | 0.5576 |
0.8364 | 14.01 | 1680 | 0.9316 | 0.6590 |
0.766 | 15.01 | 1792 | 0.7628 | 0.7742 |
0.7702 | 16.01 | 1904 | 0.8982 | 0.6682 |
0.9184 | 17.01 | 2016 | 1.1010 | 0.6221 |
0.7309 | 18.01 | 2128 | 0.8245 | 0.6866 |
0.9575 | 19.01 | 2240 | 0.9029 | 0.7097 |
0.8233 | 20.01 | 2352 | 1.2445 | 0.5161 |
0.7643 | 21.01 | 2464 | 0.9558 | 0.6498 |
0.6722 | 22.01 | 2576 | 1.1864 | 0.5714 |
0.8441 | 23.01 | 2688 | 0.9690 | 0.7235 |
0.7971 | 24.01 | 2800 | 0.9349 | 0.6774 |
0.8296 | 25.01 | 2912 | 1.4574 | 0.4516 |
0.8613 | 26.01 | 3024 | 0.8688 | 0.7189 |
0.5614 | 27.01 | 3136 | 1.2101 | 0.6083 |
0.6971 | 28.01 | 3248 | 1.3006 | 0.4654 |
0.9642 | 29.01 | 3360 | 0.9573 | 0.6313 |
0.836 | 30.01 | 3472 | 1.1268 | 0.6221 |
0.7166 | 31.01 | 3584 | 1.2384 | 0.5622 |
0.9302 | 32.01 | 3696 | 1.0620 | 0.5991 |
0.7729 | 33.01 | 3808 | 1.3253 | 0.5622 |
0.8005 | 34.01 | 3920 | 1.4979 | 0.4931 |
0.8025 | 35.01 | 4032 | 0.9786 | 0.5668 |
0.881 | 36.01 | 4144 | 0.8477 | 0.6544 |
0.5343 | 37.01 | 4256 | 1.3107 | 0.6544 |
0.5611 | 38.01 | 4368 | 0.9520 | 0.6866 |
0.6824 | 39.01 | 4480 | 0.7909 | 0.7281 |
0.6146 | 40.01 | 4592 | 1.0886 | 0.6175 |
1.0098 | 41.01 | 4704 | 1.0434 | 0.6313 |
0.5555 | 42.01 | 4816 | 0.9603 | 0.6912 |
0.4578 | 43.01 | 4928 | 1.2341 | 0.5945 |
0.5883 | 44.01 | 5040 | 1.2559 | 0.6359 |
0.3579 | 45.01 | 5152 | 1.2459 | 0.5622 |
0.7936 | 46.01 | 5264 | 1.2685 | 0.6083 |
0.4331 | 47.01 | 5376 | 0.9118 | 0.7097 |
0.8989 | 48.01 | 5488 | 1.3406 | 0.5806 |
0.7674 | 49.01 | 5600 | 1.5231 | 0.5484 |
0.8136 | 50.01 | 5712 | 1.2210 | 0.6221 |
0.6583 | 51.01 | 5824 | 0.9262 | 0.7051 |
0.4305 | 52.01 | 5936 | 1.0339 | 0.6959 |
0.7197 | 53.01 | 6048 | 1.1948 | 0.6682 |
0.7143 | 54.01 | 6160 | 1.1851 | 0.6774 |
0.5441 | 55.01 | 6272 | 1.0351 | 0.6636 |
0.6443 | 56.01 | 6384 | 1.0297 | 0.6866 |
0.7747 | 57.01 | 6496 | 1.5174 | 0.5991 |
0.5943 | 58.01 | 6608 | 1.1961 | 0.6452 |
0.5781 | 59.01 | 6720 | 1.2187 | 0.7143 |
0.6913 | 60.01 | 6832 | 1.1590 | 0.6728 |
0.6186 | 61.01 | 6944 | 1.0495 | 0.7235 |
0.5185 | 62.01 | 7056 | 0.9844 | 0.7051 |
0.4077 | 63.01 | 7168 | 1.3194 | 0.6313 |
0.8217 | 64.01 | 7280 | 1.2620 | 0.6636 |
0.5273 | 65.01 | 7392 | 1.0395 | 0.7373 |
0.9002 | 66.01 | 7504 | 1.5225 | 0.5806 |
0.5763 | 67.01 | 7616 | 1.2559 | 0.6406 |
1.0535 | 68.01 | 7728 | 1.2646 | 0.6498 |
1.0064 | 69.01 | 7840 | 1.1533 | 0.6866 |
0.332 | 70.01 | 7952 | 1.0438 | 0.7005 |
0.3978 | 71.01 | 8064 | 1.0248 | 0.7051 |
0.4459 | 72.01 | 8176 | 1.0926 | 0.7465 |
0.511 | 73.01 | 8288 | 1.1233 | 0.7143 |
0.7933 | 74.01 | 8400 | 1.1535 | 0.7189 |
0.3739 | 75.01 | 8512 | 1.3056 | 0.6912 |
0.6976 | 76.01 | 8624 | 1.3159 | 0.6682 |
0.5453 | 77.01 | 8736 | 1.4541 | 0.6359 |
0.2915 | 78.01 | 8848 | 1.2601 | 0.7051 |
0.6552 | 79.01 | 8960 | 1.5338 | 0.6544 |
0.5067 | 80.01 | 9072 | 1.6630 | 0.6037 |
0.5134 | 81.01 | 9184 | 1.4740 | 0.6406 |
0.7271 | 82.01 | 9296 | 1.2171 | 0.7097 |
0.719 | 83.01 | 9408 | 1.3653 | 0.6406 |
0.1955 | 84.01 | 9520 | 1.4696 | 0.6544 |
0.5761 | 85.01 | 9632 | 1.3334 | 0.6636 |
0.7094 | 86.01 | 9744 | 1.2673 | 0.6912 |
0.5186 | 87.01 | 9856 | 1.3147 | 0.6866 |
0.6876 | 88.01 | 9968 | 1.2622 | 0.7051 |
0.4912 | 89.01 | 10080 | 1.3054 | 0.7189 |
0.194 | 90.01 | 10192 | 1.3244 | 0.6959 |
0.6916 | 91.01 | 10304 | 1.1800 | 0.7327 |
0.5735 | 92.01 | 10416 | 1.1056 | 0.7419 |
0.2122 | 93.01 | 10528 | 1.1070 | 0.7281 |
0.1434 | 94.01 | 10640 | 1.1776 | 0.7097 |
0.4681 | 95.01 | 10752 | 1.1505 | 0.7327 |
0.2856 | 96.01 | 10864 | 1.1203 | 0.7235 |
0.6509 | 97.01 | 10976 | 1.1502 | 0.7189 |
0.1881 | 98.01 | 11088 | 1.1474 | 0.7189 |
0.5577 | 99.0 | 11100 | 1.1473 | 0.7189 |
框架版本
- Transformers 4.36.2
- Pytorch 1.13.1
- Datasets 2.16.1
- Tokenizers 0.15.0
📄 许可证
该模型采用 CC BY-NC 4.0 许可证。
Timesformer Base Finetuned K400
TimeSformer是基于Kinetics-400数据集预训练的视频分类模型,采用时空注意力机制实现视频理解。
视频处理
Transformers

T
facebook
108.61k
33
Vivit B 16x2 Kinetics400
MIT
ViViT是对视觉变换器(ViT)的扩展,适用于视频处理,特别适合视频分类任务。
视频处理
Transformers

V
google
56.94k
32
Animatediff Motion Lora Zoom In
动态LoRAs能够为动画添加特定类型的运动效果,如缩放、平移、倾斜和旋转。
视频处理
A
guoyww
51.43k
8
Videomae Base
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测被掩码视频块的像素值学习视频内部表示。
视频处理
Transformers

V
MCG-NJU
48.66k
45
Dfot
MIT
一种新颖的视频扩散模型,能够根据任意数量的上下文帧生成高质量视频
视频处理
D
kiwhansong
47.19k
6
Videomae Base Finetuned Kinetics
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Kinetics-400数据集上微调后可用于视频分类任务。
视频处理
Transformers

V
MCG-NJU
44.91k
34
Mochi 1 Preview
Apache-2.0
由Genmo开发的高保真视频生成模型,具有卓越的运动表现力和精准的提示跟随能力
视频处理 英语
M
genmo
27.13k
1,216
Animatediff Motion Lora Zoom Out
动态LoRAs能为动画添加特定类型的运动效果
视频处理
A
guoyww
11.43k
5
Ppo SpaceInvadersNoFrameskip V4
这是一个基于PPO算法的强化学习智能体,专门用于在SpaceInvadersNoFrameskip-v4游戏环境中进行训练和游戏。
视频处理
P
sb3
8,999
0
Stable Video Diffusion Img2vid Xt 1 1
其他
Stable Video Diffusion (SVD) 1.1 是一款基于扩散模型的图像转视频工具,能够将静态图像作为条件帧生成短视频片段。
视频处理
S
vdo
8,560
28
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98