SER-Odyssey-Baseline-WavLM-Valence開源模型 - 精準預測語音0到1效價值

首頁

SER Odyssey Baseline WavLM Valence

由3loi開發

基於WavLM架構的語音情緒識別模型，專門用於預測語音中的效價（valence）值，範圍為0到1。

音頻分類

Transformers

英語開源協議:MIT #語音效價識別 #WavLM架構 #MSP-Podcast數據集

下載量 71

發布時間 : 3/15/2024

模型概述

該模型是針對Odyssey 2024情緒識別競賽開發的基線模型，專注於單任務效價預測，基於MSP-Podcast數據集訓練。

模型特點

高效價預測

專注於語音中的效價（valence）預測，輸出範圍在0到1之間。

基於MSP-Podcast數據集

使用MSP-Podcast數據集訓練，該數據集專門用於語音情緒識別研究。

競賽基線模型

作為Odyssey 2024情緒識別競賽的基線模型，具有可靠的性能基準。

模型能力

語音情緒識別

效價預測

音頻分類

使用案例

語音情緒分析

語音情感分析

分析語音中的情緒效價，用於情感計算和人機交互。

在Odyssey競賽Test3和開發集上CCC指標分別為0.607和0.709。

🚀 音頻分類模型

該模型用於音頻分類，可對音頻中的情感效價（valence）進行預測，是基於Transformer架構的音頻情感識別模型，在特定競賽中表現出色。

🚀 快速開始

本模型是為2024年奧德賽情感識別競賽基線而在 MSP-Podcast 數據集上訓練的。此特定模型是單任務的效價（valence）專業模型，可預測效價，範圍約為0到1。

📚 詳細文檔

基準測試

基於奧德賽競賽的Test3和開發集的CCC（一致性相關係數）。

單任務設置	Test 3	開發集
效價（Val）	0.607	0.709

更多詳細信息請參考：演示、論文和 GitHub。

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用示例

基礎用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Valence", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'valence'}
#tensor([[0.3670]])