🚀 wav2vec2-base-finetuned-sentiment-mesd-v11
该模型是在 MESD 数据集上对 facebook/wav2vec2-base 进行微调后的版本。它在评估集上取得了以下成果:
🚀 快速开始
此模型主要用于对西班牙语音频/语音的潜在情感进行分类。
✨ 主要特性
- 该模型可基于检测到的情绪/偏好,通过用户的语音或用户的听觉环境,对音频库或其他媒体进行展示、推荐和分类。此外,还可以实现一个情绪照明系统,让用户的环境更加友好,有助于维护用户的心理健康和整体福祉。[可持续发展目标 3]
- 该模型还可以在具有更多类别标签的数据上进行训练,以用于检测争吵和其他异常情况。可以将音频分类器集成到监控系统中,以检测可以通过“声音”识别的争吵和其他不安事件。[可持续发展目标 16]
🔧 技术细节
局限性
- 用于微调 Wav2Vec2 基础模型的是开源的 MESD 数据集,其中包含约 1200 条音频记录,所有记录均在专业录音室录制,且时长仅为 1 秒。在约 1200 条音频记录中,只有 890 条用于训练。由于这些因素,该模型以及相应的 Gradio 应用程序可能在嘈杂环境或带有背景音乐或噪音的音频中表现不佳。此外,该模型在处理“恐惧”类别的音频记录时表现较差,经常会对其进行错误分类。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0001
- 训练批次大小:64
- 评估批次大小:40
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:256
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:100
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
无记录 |
0.86 |
3 |
1.7516 |
0.3846 |
1.9428 |
1.86 |
6 |
1.6859 |
0.4308 |
1.9428 |
2.86 |
9 |
1.5575 |
0.4692 |
1.9629 |
3.86 |
12 |
1.4160 |
0.4846 |
1.5678 |
4.86 |
15 |
1.2979 |
0.5308 |
1.5678 |
5.86 |
18 |
1.2294 |
0.5308 |
1.4728 |
6.86 |
21 |
1.0703 |
0.5923 |
1.4728 |
7.86 |
24 |
0.9926 |
0.6308 |
1.2588 |
8.86 |
27 |
0.9202 |
0.6846 |
0.991 |
9.86 |
30 |
0.8537 |
0.6846 |
0.991 |
10.86 |
33 |
0.8816 |
0.6769 |
0.9059 |
11.86 |
36 |
0.7149 |
0.7769 |
0.9059 |
12.86 |
39 |
0.7676 |
0.7462 |
0.7901 |
13.86 |
42 |
0.6971 |
0.7538 |
0.6278 |
14.86 |
45 |
0.6671 |
0.7923 |
0.6278 |
15.86 |
48 |
0.5681 |
0.8231 |
0.5678 |
16.86 |
51 |
0.5535 |
0.8154 |
0.5678 |
17.86 |
54 |
0.5947 |
0.8077 |
0.5157 |
18.86 |
57 |
0.6396 |
0.7692 |
0.4189 |
19.86 |
60 |
0.5291 |
0.8077 |
0.4189 |
20.86 |
63 |
0.4600 |
0.8538 |
0.3885 |
21.86 |
66 |
0.5188 |
0.8308 |
0.3885 |
22.86 |
69 |
0.5959 |
0.7923 |
0.3255 |
23.86 |
72 |
0.5240 |
0.8462 |
0.2711 |
24.86 |
75 |
0.5105 |
0.8385 |
0.2711 |
25.86 |
78 |
0.5177 |
0.8231 |
0.2748 |
26.86 |
81 |
0.3302 |
0.8923 |
0.2748 |
27.86 |
84 |
0.4774 |
0.8538 |
0.2379 |
28.86 |
87 |
0.4204 |
0.8769 |
0.1982 |
29.86 |
90 |
0.6540 |
0.7692 |
0.1982 |
30.86 |
93 |
0.5664 |
0.8308 |
0.2171 |
31.86 |
96 |
0.5100 |
0.8462 |
0.2171 |
32.86 |
99 |
0.3924 |
0.8769 |
0.17 |
33.86 |
102 |
0.6002 |
0.8231 |
0.1761 |
34.86 |
105 |
0.4364 |
0.8538 |
0.1761 |
35.86 |
108 |
0.4166 |
0.8692 |
0.1703 |
36.86 |
111 |
0.4374 |
0.8692 |
0.1703 |
37.86 |
114 |
0.3872 |
0.8615 |
0.1569 |
38.86 |
117 |
0.3941 |
0.8538 |
0.1149 |
39.86 |
120 |
0.4004 |
0.8538 |
0.1149 |
40.86 |
123 |
0.4360 |
0.8385 |
0.1087 |
41.86 |
126 |
0.4387 |
0.8615 |
0.1087 |
42.86 |
129 |
0.4352 |
0.8692 |
0.1039 |
43.86 |
132 |
0.4018 |
0.8846 |
0.099 |
44.86 |
135 |
0.4019 |
0.8846 |
0.099 |
45.86 |
138 |
0.4083 |
0.8923 |
0.1043 |
46.86 |
141 |
0.4594 |
0.8692 |
0.1043 |
47.86 |
144 |
0.4478 |
0.8769 |
0.0909 |
48.86 |
147 |
0.5025 |
0.8538 |
0.1024 |
49.86 |
150 |
0.5442 |
0.8692 |
0.1024 |
50.86 |
153 |
0.3827 |
0.8769 |
0.1457 |
51.86 |
156 |
0.6816 |
0.8231 |
0.1457 |
52.86 |
159 |
0.3435 |
0.8923 |
0.1233 |
53.86 |
162 |
0.4418 |
0.8769 |
0.101 |
54.86 |
165 |
0.4629 |
0.8846 |
0.101 |
55.86 |
168 |
0.4616 |
0.8692 |
0.0969 |
56.86 |
171 |
0.3608 |
0.8923 |
0.0969 |
57.86 |
174 |
0.4867 |
0.8615 |
0.0981 |
58.86 |
177 |
0.4493 |
0.8692 |
0.0642 |
59.86 |
180 |
0.3841 |
0.8538 |
0.0642 |
60.86 |
183 |
0.4509 |
0.8769 |
0.0824 |
61.86 |
186 |
0.4477 |
0.8769 |
0.0824 |
62.86 |
189 |
0.4649 |
0.8615 |
0.0675 |
63.86 |
192 |
0.3492 |
0.9231 |
0.0839 |
64.86 |
195 |
0.3763 |
0.8846 |
0.0839 |
65.86 |
198 |
0.4475 |
0.8769 |
0.0677 |
66.86 |
201 |
0.4104 |
0.8923 |
0.0677 |
67.86 |
204 |
0.3071 |
0.9308 |
0.0626 |
68.86 |
207 |
0.3598 |
0.9077 |
0.0412 |
69.86 |
210 |
0.3771 |
0.8923 |
0.0412 |
70.86 |
213 |
0.4043 |
0.8846 |
0.0562 |
71.86 |
216 |
0.3696 |
0.9077 |
0.0562 |
72.86 |
219 |
0.3295 |
0.9077 |
0.0447 |
73.86 |
222 |
0.3616 |
0.8923 |
0.0727 |
74.86 |
225 |
0.3495 |
0.8923 |
0.0727 |
75.86 |
228 |
0.4330 |
0.8846 |
0.0576 |
76.86 |
231 |
0.5179 |
0.8923 |
0.0576 |
77.86 |
234 |
0.5544 |
0.8846 |
0.0489 |
78.86 |
237 |
0.4630 |
0.9 |
0.0472 |
79.86 |
240 |
0.4513 |
0.9 |
0.0472 |
80.86 |
243 |
0.4207 |
0.9077 |
0.0386 |
81.86 |
246 |
0.4118 |
0.8769 |
0.0386 |
82.86 |
249 |
0.4764 |
0.8769 |
0.0372 |
83.86 |
252 |
0.4167 |
0.8769 |
0.0344 |
84.86 |
255 |
0.3744 |
0.9077 |
0.0344 |
85.86 |
258 |
0.3712 |
0.9077 |
0.0459 |
86.86 |
261 |
0.4249 |
0.8846 |
0.0459 |
87.86 |
264 |
0.4687 |
0.8846 |
0.0364 |
88.86 |
267 |
0.4194 |
0.8923 |
0.0283 |
89.86 |
270 |
0.3963 |
0.8923 |
0.0283 |
90.86 |
273 |
0.3982 |
0.8923 |
0.0278 |
91.86 |
276 |
0.3838 |
0.9077 |
0.0278 |
92.86 |
279 |
0.3731 |
0.9 |
0.0352 |
93.86 |
282 |
0.3736 |
0.9 |
0.0297 |
94.86 |
285 |
0.3702 |
0.9 |
0.0297 |
95.86 |
288 |
0.3521 |
0.9154 |
0.0245 |
96.86 |
291 |
0.3522 |
0.9154 |
0.0245 |
97.86 |
294 |
0.3600 |
0.9077 |
0.0241 |
98.86 |
297 |
0.3636 |
0.9077 |
0.0284 |
99.86 |
300 |
0.3639 |
0.9077 |
框架版本
- Transformers 4.17.0
- Pytorch 1.10.0+cu111
- Datasets 2.0.0
- Tokenizers 0.11.6
📄 许可证
本模型采用 Apache-2.0 许可证。