SER-Odyssey-Baseline-WavLM-Arousal開源模型 - 精準預測語音喚醒度值

首頁

SER Odyssey Baseline WavLM Arousal

由3loi開發

基於WavLM架構的語音情緒識別基線模型，專門用於預測語音中的喚醒度值（0-1範圍）

音頻分類

Transformers

英語開源協議:MIT #語音喚醒度預測 #單任務情緒識別 #MSP-Podcast數據集

下載量 72

發布時間 : 3/15/2024

模型概述

該模型是Odyssey 2024情緒識別競賽的基線模型，基於MSP-Podcast數據集訓練，專注於單任務喚醒度預測。

模型特點

高精度喚醒度預測

在Test3和開發集上分別達到0.566和0.651的CCC指標

單任務專注設計

專門優化用於喚醒度預測，避免多任務干擾

標準化音頻處理

內置均值/標準差標準化流程，確保輸入一致性

模型能力

語音情緒分析

喚醒度值預測

音頻特徵提取

使用案例

心理健康監測

語音情緒狀態評估

通過語音分析用戶的情緒喚醒程度

可量化輸出0-1範圍的喚醒度值

人機交互

智能客服情緒響應

即時檢測用戶語音情緒狀態以調整響應策略

🚀 音頻分類模型

該模型用於音頻分類，在奧德賽2024情感識別競賽基線中，基於 MSP-Podcast 數據集進行訓練。此特定模型是單任務的喚醒度（arousal）專業模型，能預測喚醒度，範圍約為0到1。

✨ 主要特性

基於 MSP-Podcast 數據集訓練，用於奧德賽2024情感識別競賽基線。
單任務專業喚醒度模型，可預測約0到1範圍內的喚醒度。

📚 詳細文檔

基準測試

基於奧德賽競賽的Test3和開發集進行CCC（一致性相關係數）評估。

單任務設置	Test 3	開發集
喚醒度（Aro）	0.566	0.651

更多詳細信息請參考：演示、論文和 GitHub。

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用示例

基礎用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Arousal", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'arousal'}
#tensor([[0.3670]])