🚀 wav2vec2-base-Drum_Kit_Sounds
本模型是 facebook/wav2vec2-base 的微调版本。它能够对音频样本进行多分类,以确定其中被敲击的鼓的类型,可识别的鼓类型包括底鼓(kick)、吊镲(overheads)、军鼓(snare)和通鼓(toms)。
评估集结果
- 损失值:1.0887
- 准确率:0.7812
- F1值:
- 加权F1值:0.7692
- 微平均F1值:0.7812
- 宏平均F1值:0.7845
- 召回率:
- 加权召回率:0.7812
- 微平均召回率:0.7812
- 宏平均召回率:0.8187
- 精确率:
- 加权精确率:0.8717
- 微平均精确率:0.7812
- 宏平均精确率:0.8534
📚 详细文档
模型描述
这是一个用于声音多分类的模型,用于确定音频样本中被敲击的鼓的类型。可选的鼓类型有:底鼓、吊镲、军鼓和通鼓。
有关其创建方式的更多信息,请查看以下链接:https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Classification/Audio-Drum_Kit_Sounds.ipynb
预期用途与限制
此模型旨在展示使用技术解决复杂问题的能力。
训练和评估数据
数据集来源:https://www.kaggle.com/datasets/anubhavchhabra/drum-kit-sound-samples
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:3e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.1
- 训练轮数:12
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
加权F1值 |
微平均F1值 |
宏平均F1值 |
加权召回率 |
微平均召回率 |
宏平均召回率 |
加权精确率 |
微平均精确率 |
宏平均精确率 |
1.3743 |
1.0 |
4 |
1.3632 |
0.5625 |
0.5801 |
0.5625 |
0.5678 |
0.5625 |
0.5625 |
0.5670 |
0.6786 |
0.5625 |
0.6429 |
1.3074 |
2.0 |
8 |
1.3149 |
0.3438 |
0.2567 |
0.3438 |
0.2696 |
0.3438 |
0.3438 |
0.375 |
0.3067 |
0.3438 |
0.3148 |
1.2393 |
3.0 |
12 |
1.3121 |
0.2188 |
0.0785 |
0.2188 |
0.0897 |
0.2188 |
0.2188 |
0.25 |
0.0479 |
0.2188 |
0.0547 |
1.2317 |
4.0 |
16 |
1.3112 |
0.2812 |
0.1800 |
0.2812 |
0.2057 |
0.2812 |
0.2812 |
0.3214 |
0.2698 |
0.2812 |
0.3083 |
1.2107 |
5.0 |
20 |
1.2604 |
0.4375 |
0.3030 |
0.4375 |
0.3462 |
0.4375 |
0.4375 |
0.5 |
0.2552 |
0.4375 |
0.2917 |
1.1663 |
6.0 |
24 |
1.2112 |
0.4688 |
0.3896 |
0.4688 |
0.4310 |
0.4688 |
0.4688 |
0.5268 |
0.5041 |
0.4688 |
0.5404 |
1.1247 |
7.0 |
28 |
1.1746 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0856 |
8.0 |
32 |
1.1434 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0601 |
9.0 |
36 |
1.1417 |
0.6562 |
0.6029 |
0.6562 |
0.6389 |
0.6562 |
0.6562 |
0.7125 |
0.8440 |
0.6562 |
0.8217 |
1.0375 |
10.0 |
40 |
1.1227 |
0.6875 |
0.6582 |
0.6875 |
0.6831 |
0.6875 |
0.6875 |
0.7330 |
0.8457 |
0.6875 |
0.8237 |
1.0168 |
11.0 |
44 |
1.1065 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
1.0093 |
12.0 |
48 |
1.0887 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
框架版本
- Transformers 4.25.1
- Pytorch 1.12.1
- Datasets 2.8.0
- Tokenizers 0.12.1
📄 许可证
本项目采用 Apache-2.0 许可证。