🚀 wav2vec2-base-语音情感识别
本模型旨在预测音频样本中说话者的情感,基于预训练模型微调而来,能有效解决语音情感识别问题,为相关领域的研究和应用提供了有力支持。
🚀 快速开始
本模型是 facebook/wav2vec2-base 的微调版本。
它在评估集上取得了以下结果:
- 损失:0.7264
- 准确率:0.7539
- F1值:
- 加权:0.7514
- 微平均:0.7539
- 宏平均:0.7529
- 召回率:
- 加权:0.7539
- 微平均:0.7539
- 宏平均:0.7577
- 精确率:
- 加权:0.7565
- 微平均:0.7539
- 宏平均:0.7558
✨ 主要特性
本模型能够预测音频样本中说话者的情感。
若想了解该模型的创建方式,请查看以下链接:https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/tree/main/Audio-Projects/Emotion%20Detection/Speech%20Emotion%20Detection
📚 详细文档
预期用途与限制
本模型旨在展示使用技术解决复杂问题的能力。
训练和评估数据
数据集来源:https://www.kaggle.com/datasets/dmitrybabko/speech-emotion-recognition-en
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:3e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:128
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.1
- 训练轮数:10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
加权F1值 |
微平均F1值 |
宏平均F1值 |
加权召回率 |
微平均召回率 |
宏平均召回率 |
加权精确率 |
微平均精确率 |
宏平均精确率 |
1.5581 |
0.98 |
43 |
1.4046 |
0.4653 |
0.4080 |
0.4653 |
0.4174 |
0.4653 |
0.4653 |
0.4793 |
0.5008 |
0.4653 |
0.4974 |
1.5581 |
1.98 |
86 |
1.1566 |
0.5997 |
0.5836 |
0.5997 |
0.5871 |
0.5997 |
0.5997 |
0.6093 |
0.6248 |
0.5997 |
0.6209 |
1.5581 |
2.98 |
129 |
0.9733 |
0.6883 |
0.6845 |
0.6883 |
0.6860 |
0.6883 |
0.6883 |
0.6923 |
0.7012 |
0.6883 |
0.7009 |
1.5581 |
3.98 |
172 |
0.8313 |
0.7399 |
0.7392 |
0.7399 |
0.7409 |
0.7399 |
0.7399 |
0.7417 |
0.7415 |
0.7399 |
0.7432 |
1.5581 |
4.98 |
215 |
0.8708 |
0.7028 |
0.6963 |
0.7028 |
0.6970 |
0.7028 |
0.7028 |
0.7081 |
0.7148 |
0.7028 |
0.7114 |
1.5581 |
5.98 |
258 |
0.7969 |
0.7297 |
0.7267 |
0.7297 |
0.7277 |
0.7297 |
0.7297 |
0.7333 |
0.7393 |
0.7297 |
0.7382 |
1.5581 |
6.98 |
301 |
0.7349 |
0.7603 |
0.7613 |
0.7603 |
0.7631 |
0.7603 |
0.7603 |
0.7635 |
0.7699 |
0.7603 |
0.7702 |
1.5581 |
7.98 |
344 |
0.7714 |
0.7469 |
0.7444 |
0.7469 |
0.7456 |
0.7469 |
0.7469 |
0.7485 |
0.7554 |
0.7469 |
0.7563 |
1.5581 |
8.98 |
387 |
0.7183 |
0.7630 |
0.7615 |
0.7630 |
0.7631 |
0.7630 |
0.7630 |
0.7652 |
0.7626 |
0.7630 |
0.7637 |
1.5581 |
9.98 |
430 |
0.7264 |
0.7539 |
0.7514 |
0.7539 |
0.7529 |
0.7539 |
0.7539 |
0.7577 |
0.7565 |
0.7539 |
0.7558 |
框架版本
- Transformers 4.26.1
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3
📄 许可证
本项目采用 Apache-2.0 许可证。