SER-Odyssey-Baseline-WavLM-Dominance开源模型 - 精准预测语音支配度情绪特征

首页

SER Odyssey Baseline WavLM Dominance

由 3loi 开发

基于WavLM架构的语音情绪识别模型，专用于预测语音中的支配度情绪特征

音频分类

Transformers

英语开源协议:MIT #语音支配度预测 #WavLM架构 #MSP-Podcast数据集

下载量 15

发布时间 : 3/15/2024

模型简介

该模型是Odyssey 2024情绪识别竞赛的基线模型，基于MSP-Podcast数据集训练，专注于单任务支配度预测，预测范围为0到1之间的连续值。

模型特点

高精度支配度预测

在Test3和开发集上分别达到0.424和0.584的CCC指标

专业数据集训练

基于MSP-Podcast专业语音情绪数据集训练

竞赛验证模型

作为Odyssey 2024情绪识别竞赛的官方基线模型

模型能力

语音情绪分析

支配度预测

音频分类

使用案例

心理学研究

语音情绪特征分析

用于心理学研究中分析语音中的支配度特征

可量化测量语音中的支配程度

人机交互

智能客服情绪感知

帮助智能客服系统感知用户的支配态度

提升客服系统的情绪响应能力

🚀 音频情感支配力识别模型

本模型用于音频情感支配力识别，基于MSP - Podcast数据集训练，可预测音频中情感的支配力程度，预测范围约为0到1，为Odyssey 2024情感识别竞赛提供了基线模型。

🚀 快速开始

本模型主要用于音频情感支配力的识别，通过输入音频文件，可预测其情感支配力程度。以下是使用示例：

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Dominance", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'dominance'}
#tensor([[0.3670]])

✨ 主要特性

单任务专业模型：专门用于预测音频情感的支配力程度，预测范围约为0到1。
基于特定数据集训练：在[MSP - Podcast](https://ecs.utdallas.edu/research/researchlabs/msp-lab/MSP - Podcast.html)数据集上进行训练，为Odyssey 2024情感识别竞赛提供基线。

📚 详细文档

模型基准测试

基于Odyssey竞赛的Test3和开发集进行CCC（一致性相关系数）评估，结果如下：

数据集	支配力CCC值
Test 3	0.424
开发集	0.584

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro - Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}