SER-Odyssey-Baseline-WavLM-Dominance開源模型 - 精準預測語音支配度情緒特徵

首頁

SER Odyssey Baseline WavLM Dominance

由3loi開發

基於WavLM架構的語音情緒識別模型，專用於預測語音中的支配度情緒特徵

音頻分類

Transformers

英語開源協議:MIT #語音支配度預測 #WavLM架構 #MSP-Podcast數據集

下載量 15

發布時間 : 3/15/2024

模型概述

該模型是Odyssey 2024情緒識別競賽的基線模型，基於MSP-Podcast數據集訓練，專注於單任務支配度預測，預測範圍為0到1之間的連續值。

模型特點

高精度支配度預測

在Test3和開發集上分別達到0.424和0.584的CCC指標

專業數據集訓練

基於MSP-Podcast專業語音情緒數據集訓練

競賽驗證模型

作為Odyssey 2024情緒識別競賽的官方基線模型

模型能力

語音情緒分析

支配度預測

音頻分類

使用案例

心理學研究

語音情緒特徵分析

用於心理學研究中分析語音中的支配度特徵

可量化測量語音中的支配程度

人機交互

智能客服情緒感知

幫助智能客服系統感知用戶的支配態度

提升客服系統的情緒響應能力

🚀 音頻情感支配力識別模型

本模型用於音頻情感支配力識別，基於MSP - Podcast數據集訓練，可預測音頻中情感的支配力程度，預測範圍約為0到1，為Odyssey 2024情感識別競賽提供了基線模型。

🚀 快速開始

本模型主要用於音頻情感支配力的識別，通過輸入音頻文件，可預測其情感支配力程度。以下是使用示例：

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Dominance", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'dominance'}
#tensor([[0.3670]])

✨ 主要特性

單任務專業模型：專門用於預測音頻情感的支配力程度，預測範圍約為0到1。
基於特定數據集訓練：在[MSP - Podcast](https://ecs.utdallas.edu/research/researchlabs/msp-lab/MSP - Podcast.html)數據集上進行訓練，為Odyssey 2024情感識別競賽提供基線。

📚 詳細文檔

模型基準測試

基於Odyssey競賽的Test3和開發集進行CCC（一致性相關係數）評估，結果如下：

數據集	支配力CCC值
Test 3	0.424
開發集	0.584

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro - Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}