SER-Odyssey-Baseline-WavLM-Categorical開源模型 - 免費預測8種基本語音情緒類別

首頁

SER Odyssey Baseline WavLM Categorical

由3loi開發

基於WavLM架構的語音情緒識別基線模型，用於預測8種基本情緒類別

音頻分類

Transformers

英語開源協議:MIT #語音情緒識別 #WavLM架構 #多情緒分類

下載量 581

發布時間 : 3/7/2024

模型概述

該模型是基於MSP-Podcast數據集訓練的語音情緒識別分類模型，作為Odyssey 2024情緒識別競賽的基線模型，可預測憤怒、悲傷、快樂等8種情緒類別。

模型特點

多情緒分類

可識別8種基本情緒類別：憤怒、悲傷、快樂、驚訝、恐懼、厭惡、輕蔑和中性

標準化音頻處理

支持均值/標準差歸一化預處理，提高模型識別準確率

競賽基線模型

作為Odyssey 2024情緒識別競賽的官方基線模型，具有參考價值

模型能力

語音情緒識別

音頻分類

多類別情感分析

使用案例

人機交互

語音助手情緒響應

通過識別用戶語音情緒調整交互策略

提升人機交互的自然度和用戶體驗

心理健康

情緒狀態監測

分析語音記錄中的情緒變化

輔助心理健康評估和干預

🚀 語音情感識別模型

本模型是為2024年奧德賽情感識別競賽基線而設計，在 MSP-Podcast 數據集上進行訓練。該模型基於分類方式，能夠預測以下情感類別：“憤怒”、“悲傷”、“快樂”、“驚訝”、“恐懼”、“厭惡”、“輕蔑”和“中立”。

✨ 主要特性

基於 MSP-Podcast 數據集訓練，用於2024年奧德賽情感識別競賽基線。
採用分類方式，可預測多種情感類別。

📚 詳細文檔

基準測試

基於奧德賽競賽的Test3和開發集的F1分數：

屬性	詳情
模型類型	基於分類的語音情感識別模型
訓練數據	MSP-Podcast

以下是具體的F1分數表格：

	Test 3				Development
	F1-Mic.	F1-Ma.	Prec.	Rec.	F1-Mic.	F1-Ma.	Prec.	Rec.
	0.327	0.311	0.332	0.325	0.409	0.307	0.316	0.345

更多詳細信息可參考：演示、論文和 GitHub。

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用示例

基礎用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Categorical-Attributes", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label)  
print(pred)
#{0: 'Angry', 1: 'Sad', 2: 'Happy', 3: 'Surprise', 4: 'Fear', 5: 'Disgust', 6: 'Contempt', 7: 'Neutral'}
#tensor([[0.0015, 0.3651, 0.0593, 0.0315, 0.0600, 0.0125, 0.0319, 0.4382]])

#convert logits to probability
probabilities = torch.nn.functional.softmax(pred, dim=1)
print(probabilities)
#[[0.0015, 0.3651, 0.0593, 0.0315, 0.0600, 0.0125, 0.0319, 0.4382]]