wav2vec2-lg-xlsr-en-speech-emotion-recognition开源模型

首页

Wav2vec2 Lg Xlsr En Speech Emotion Recognition

由 ehcalabres 开发

基于Wav2Vec 2.0微调的语音情感识别模型，支持识别8种英语情感，在RAVDESS数据集上准确率达82.23%

音频分类

Transformers

开源协议:Apache-2.0 #语音情感识别 #高准确率(82%)#英语情感分析

下载量 39.83k

发布时间 : 3/2/2022

模型简介

该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english微调而成的语音情感识别（SER）模型，专门用于识别英语语音中的8种不同情感。

模型特点

高准确率

在RAVDESS数据集上达到82.23%的准确率

多情感识别

能够识别8种不同情感：愤怒、平静、厌恶、恐惧、快乐、中性、悲伤、惊讶

基于Wav2Vec2.0

利用强大的Wav2Vec2.0架构进行特征提取和分类

优化训练

采用精心设计的训练流程和超参数优化

模型能力

语音情感识别

英语语音分析

情感分类

使用案例

人机交互

智能客服情感分析

分析客户语音中的情感状态，提升客服服务质量

可识别客户情绪状态，帮助客服人员做出更合适的响应

心理健康

情绪状态监测

通过语音分析监测用户情绪变化

可用于心理健康应用中的情绪追踪

娱乐应用

游戏情感互动

根据玩家语音情绪调整游戏体验

创造更个性化的游戏互动体验

🚀 基于微调Wav2Vec 2.0的语音情感识别

本模型是针对语音情感识别（SER）任务，对jonatasgrosman/wav2vec2-large-xlsr-53-english进行微调后的版本。它利用特定数据集优化模型，以实现更精准的语音情感识别，为语音处理领域提供了有效的解决方案。

🚀 快速开始

本模型可直接用于语音情感识别任务，你可以基于Hugging Face平台的相关工具进行调用和使用。

✨ 主要特性

微调优化：基于预训练模型进行微调，针对语音情感识别任务进行了优化。
多情感识别：能够识别多种情感，包括愤怒、平静、厌恶、恐惧、快乐、中性、悲伤和惊讶。
效果良好：在评估集上取得了较好的结果，损失为0.5023，准确率达到0.8223。

📦 安装指南

文档未提及具体安装步骤，可参考Hugging Face平台上相关模型的通用安装方法。

💻 使用示例

文档未提供代码示例，你可以参考Hugging Face平台上关于语音情感识别模型的使用教程。

📚 详细文档

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批次大小：4
评估批次大小：4
随机种子：42
梯度累积步数：2
总训练批次大小：8
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
训练轮数：3
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	准确率
2.0752	0.21	30	2.0505	0.1359
2.0119	0.42	60	1.9340	0.2474
1.8073	0.63	90	1.5169	0.3902
1.5418	0.84	120	1.2373	0.5610
1.1432	1.05	150	1.1579	0.5610
0.9645	1.26	180	0.9610	0.6167
0.8811	1.47	210	0.8063	0.7178
0.8756	1.68	240	0.7379	0.7352
0.8208	1.89	270	0.6839	0.7596
0.7118	2.1	300	0.6664	0.7735
0.4261	2.31	330	0.6058	0.8014
0.4394	2.52	360	0.5754	0.8223
0.4581	2.72	390	0.4719	0.8467
0.3967	2.93	420	0.5023	0.8223

引用信息

@misc {enrique_hernández_calabrés_2024,
	author       = { {Enrique Hernández Calabrés} },
	title        = { wav2vec2-lg-xlsr-en-speech-emotion-recognition (Revision 17cf17c) },
	year         = 2024,
	url          = { https://huggingface.co/ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition },
	doi          = { 10.57967/hf/2045 },
	publisher    = { Hugging Face }
}