w2v-speech-emotion-recognition开源语音模型 - 免费部署识别英语六种情感状态

首页

W2v Speech Emotion Recognition

由 Khoa 开发

基于Wav2Vec2架构微调的英语语音情感识别模型，可识别六种情感状态

音频分类

Safetensors

英语开源协议:MIT #英语语音情感分析 #多情感分类 #wav2vec2微调

下载量 147

发布时间 : 8/27/2024

模型简介

该模型专门用于识别英语语音中的情感状态，包括悲伤、愤怒、厌恶、恐惧、快乐和中性。基于Wav2Vec2架构，在Kaggle语音情感识别数据集上进行了微调。

模型特点

多情感识别

能够识别六种不同的情感状态：悲伤、愤怒、厌恶、恐惧、快乐和中性

高准确率

在测试集上达到0.7435的准确率，特别在愤怒和中性情感识别上表现优异

基于Wav2Vec2架构

利用Wav2Vec2的强大特征提取能力，适用于语音情感识别任务

模型能力

英语语音情感识别

六种情感分类

音频特征提取

使用案例

情感分析

客服语音分析

分析客户服务通话中的客户情绪

帮助识别不满客户并提高服务质量

心理健康监测

通过语音分析监测用户情绪状态

辅助心理健康评估和早期干预

人机交互

智能助手情绪响应

使智能助手能够根据用户语音情绪调整响应方式

提升人机交互的自然性和情感共鸣

🚀 英文Wav2Vec2语音情感识别模型

本模型利用Wav2Vec2架构，针对英文语音中的情感识别进行了微调。它能够检测英文语音中的多种情感，为语音情感分析提供了有效的解决方案。

🚀 快速开始

要使用此模型，你需要安装transformers和torchaudio包：

pip install transformers
pip install torchaudio

✨ 主要特性

情感识别能力：能够检测悲伤、愤怒、厌恶、恐惧、快乐和中性六种情感。
特定语言适配：专门针对英文语音进行训练，在英文情感识别任务上表现出色。

📦 安装指南

使用此模型，你需要安装transformers和torchaudio包：

pip install transformers
pip install torchaudio

💻 使用示例

基础用法

以下是如何使用该模型对英文音频文件进行情感分类的示例：

from transformers import pipeline

# 加载微调后的模型和特征提取器
pipe = pipeline("audio-classification", model="Khoa/w2v-speech-emotion-recognition")

# 你的音频文件路径
audio_file = "path_to_your_audio_file.wav"

# 进行情感分类
predictions = pipe(audio_file)

# 将预测结果映射到真实的情感标签
label_map = {
    "LABEL_0": "sadness",
    "LABEL_1": "angry",
    "LABEL_2": "disgust",
    "LABEL_3": "fear",
    "LABEL_4": "happy",
    "LABEL_5": "neutral"
}

# 将预测结果转换为可读标签
mapped_predictions = [
    {"score": pred["score"], "label": label_map[pred["label"]]} 
    for pred in predictions
]

# 显示结果
print(mapped_predictions)

示例输出

模型会输出一个包含每种情感得分的预测列表。例如：

[
    {"score": 0.95, "label": "angry"},
    {"score": 0.02, "label": "happy"},
    {"score": 0.01, "label": "disgust"},
    {"score": 0.01, "label": "neutral"},
    {"score": 0.01, "label": "fear"}
]

📚 详细文档

模型概述

此模型使用Wav2Vec2架构，针对英文语音中的情感识别进行了微调。它能够检测以下情感：

悲伤
愤怒
厌恶
恐惧
快乐
中性

该模型在Kaggle的语音情感识别数据集上进行训练，该数据集包含英文情感语音样本。数据集中的音频文件标有各种情感状态，非常适合用于情感识别任务的模型训练。

模型详情

属性	详情
模型类型	Wav2Vec2
支持语言	英文
训练数据	语音情感识别数据集（Kaggle）
可检测情感	悲伤、愤怒、厌恶、恐惧、快乐、中性

训练结果

该模型在测试集上取得了以下结果：

测试准确率：0.7435
分类报告：

              precision    recall  f1-score   support

     sadness       0.68      0.71      0.70       251
       angry       0.75      0.93      0.83       258
     disgust       0.86      0.64      0.73       250
        fear       0.75      0.61      0.67       287
       happy       0.73      0.68      0.71       231
     neutral       0.72      0.92      0.81       212

    accuracy                           0.74      1489
   macro avg       0.75      0.75      0.74      1489
weighted avg       0.75      0.74      0.74      1489