wav2vec2-base-Toronto_emotional_speech_set开源音频模型

首页

Wav2vec2 Base Toronto Emotional Speech Set

由 DunnBC22 开发

基于wav2vec2-base微调的音频情感分类模型，用于识别说话者的情绪状态。

音频分类

Transformers

英语开源协议:Apache-2.0 #语音情绪识别 #高精度情感分析 #英语音频分类

下载量 185

发布时间 : 5/2/2023

模型简介

该模型是基于facebook/wav2vec2-base在Toronto Emotional Speech Set (TESS)数据集上微调的版本，专门用于对音频样本中说话者的情绪进行分类。

模型特点

高准确率情感识别

在评估集上达到88.04%的准确率，能有效识别多种情绪状态。

基于wav2vec2架构

利用强大的wav2vec2-base模型作为基础，具有良好的音频特征提取能力。

全面评估指标

提供多种评估指标包括F1分数、召回率和精确率，全面反映模型性能。

模型能力

语音情感识别

音频分类

英语语音分析

使用案例

情感分析

客服对话情绪监测

用于分析客服对话中客户的实时情绪状态

可帮助客服人员及时调整沟通策略

心理状态评估

辅助心理医生分析患者的语音情绪特征

提供客观的情绪状态参考指标

🚀 wav2vec2-base-Toronto_emotional_speech_set

该模型是基于 facebook/wav2vec2-base 在 audiofolder 数据集上进行微调的版本。它在解决音频情感分类问题上表现出色，能够准确识别音频样本中说话者的情感。

🚀 快速开始

此模型是 facebook/wav2vec2-base 在 audiofolder 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.4925
准确率：0.8804
加权 F1 值：0.8837
微平均 F1 值：0.8804
宏平均 F1 值：0.8822
加权召回率：0.8804
微平均召回率：0.8804
宏平均召回率：0.8757
加权精确率：0.9044
微平均精确率：0.8804
宏平均精确率：0.9059

✨ 主要特性

情感分类：该模型能够对音频样本中说话者的情感进行分类。
评估指标优秀：在评估集上，模型在损失、准确率、F1 值、召回率和精确率等多个指标上都取得了良好的成绩。

📚 详细文档

模型描述

此模型用于对音频样本中说话者的情感进行分类。

如需了解该模型的创建方式，请查看以下链接：https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Emotion%20Detection/Toronto%20Emotional%20Speech%20Set%20(TESS)/Toronto%20Emotional%20Speech%20Set%20(TESS).ipynb

预期用途与限制

该模型旨在展示使用技术解决复杂问题的能力。

训练和评估数据

数据集来源：https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：3e - 05
训练批次大小：32
评估批次大小：32
随机种子：42
梯度累积步数：4
总训练批次大小：128
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身比例：0.1
训练轮数：15

训练结果

训练损失	轮数	步数	验证损失	准确率	加权 F1 值	微平均 F1 值	宏平均 F1 值	加权召回率	微平均召回率	宏平均召回率	加权精确率	微平均精确率	宏平均精确率
1.9517	0.97	17	1.9432	0.2411	0.1338	0.2411	0.1201	0.2411	0.2411	0.2168	0.1161	0.2411	0.1049
1.9517	2.0	35	1.9036	0.3375	0.3037	0.3375	0.3082	0.3375	0.3375	0.3533	0.5364	0.3375	0.5379
1.9517	2.97	52	1.6629	0.4518	0.4020	0.4518	0.3936	0.4518	0.4518	0.4503	0.6751	0.4518	0.6555
1.9517	4.0	70	1.2026	0.7357	0.7121	0.7357	0.6989	0.7357	0.7357	0.7240	0.7903	0.7357	0.7848
1.9517	4.97	87	0.8458	0.8839	0.8796	0.8839	0.8767	0.8839	0.8839	0.8845	0.8874	0.8839	0.8807
1.9517	6.0	105	0.6493	0.8946	0.8939	0.8946	0.8914	0.8946	0.8946	0.8937	0.9049	0.8946	0.9014
1.9517	6.97	122	0.5149	0.9089	0.9046	0.9089	0.8989	0.9089	0.9089	0.8957	0.9275	0.9089	0.9327
1.9517	8.0	140	0.3814	0.9536	0.9531	0.9536	0.9501	0.9536	0.9536	0.9474	0.9577	0.9536	0.9583
1.9517	8.97	157	0.5627	0.85	0.8459	0.85	0.8402	0.85	0.85	0.8378	0.9100	0.85	0.9160
1.9517	10.0	175	0.4702	0.8911	0.8861	0.8911	0.8854	0.8911	0.8911	0.8938	0.9021	0.8911	0.8967
1.9517	10.97	192	0.3362	0.9393	0.9376	0.9393	0.9361	0.9393	0.9393	0.9399	0.9402	0.9393	0.9365
1.9517	12.0	210	0.3808	0.9179	0.9181	0.9179	0.9176	0.9179	0.9179	0.9180	0.9251	0.9179	0.9235
1.9517	12.97	227	0.4546	0.9036	0.9045	0.9036	0.9024	0.9036	0.9036	0.8988	0.9151	0.9036	0.9157
1.9517	14.0	245	0.5065	0.8786	0.8826	0.8786	0.8813	0.8786	0.8786	0.8742	0.9040	0.8786	0.9055
1.9517	14.57	255	0.4925	0.8804	0.8837	0.8804	0.8822	0.8804	0.8804	0.8757	0.9044	0.8804	0.9059