Speech_Emotion_Recognition_wav2vec2開源語音情感識別模型

首頁

Speech Emotion Recognition Wav2vec2 Large Xlsr 53 240304 SER Fine Tuned2.0

由hughlan1214開發

基於wav2vec2-large-xlsr-53的語音情感識別模型，支持7種情感分類

音頻分類

Transformers

開源協議:Apache-2.0 #語音情感識別 #多語言支持 #即時情緒推斷

下載量 145

發布時間 : 3/4/2024

模型概述

該模型通過微調facebook/wav2vec2-large-xlsr-53實現，能夠識別語音中的7種情感類型（憤怒、厭惡、恐懼、快樂、中性、悲傷、驚訝），為多模態情緒分析提供基礎。

模型特點

跨語言能力

儘管僅使用英文數據訓練，但模型在中文和法語情感識別上也表現良好

多情感分類

可識別7種不同的人類基本情感狀態

多數據集融合訓練

基於Crema、Ravdess、Savee和Tess四個主流語音情感數據集的融合數據訓練

模型能力

語音情感識別

跨語言情感分析

即時情緒推斷

使用案例

人機交互

智能客服情緒分析

即時分析客戶語音中的情緒狀態

提升客服響應質量和用戶體驗

心理健康

情緒狀態監測

通過語音分析用戶情緒變化

輔助心理健康評估

🚀 SER_wav2vec2-large-xlsr-53_240304_fine-tuned_2

本模型是在hughlan1214/SER_wav2vec2-large-xlsr-53_240304_fine-tuned1.1基礎上，針對語音情感識別（英語）數據集進行微調得到的版本。該數據集涵蓋了英語領域最常用的4個數據集：Crema、Ravdess、Savee和Tess，總計包含超過12000個.wav音頻文件。這四個數據集中的每一個都包含6到8種不同的情感標籤。該模型在評估集上取得了以下成績：

損失值：1.0601
準確率：0.6731
精確率：0.6761
召回率：0.6794
F1值：0.6738

✨ 主要特性

跨語言能力強：儘管模型是基於純英文數據集進行訓練的，但發佈後的測試表明，它在預測中文和法語語音情感方面也表現出色，展現了facebook/wav2vec2-large-xlsr-53預訓練模型強大的跨語言能力。
多情感預測：能夠預測語音中包含的7種情感類型，為後續結合視覺層面的人類微表情以及大語言模型（LLMS）下的上下文語義即時推斷用戶情感奠定了基礎。

📚 詳細文檔

模型描述

該模型通過使用facebook/wav2vec2-large-xlsr-53進行特徵提取，並經過多輪微調得到。它旨在預測語音中包含的7種情感，為後續在視覺層面利用人類微表情以及在大語言模型（LLMS）下結合上下文語義即時推斷用戶情感奠定基礎。

emotions = ['angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise']

預期用途和侷限性

更多信息待補充。

訓練和評估數據

使用整個數據集的70%進行訓練，30%進行評估。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：5e-05
訓練批次大小：8
評估批次大小：4
隨機種子：42
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：餘弦
學習率調度器預熱比例：0.1
訓練輪數：10

訓練結果

訓練損失	輪數	步數	驗證損失	準確率	精確率	召回率	F1值
0.8904	1.0	1048	1.1923	0.5773	0.6162	0.5563	0.5494
1.1394	2.0	2096	1.0143	0.6071	0.6481	0.6189	0.6057
0.9373	3.0	3144	1.0585	0.6126	0.6296	0.6254	0.6119
0.7405	4.0	4192	0.9580	0.6514	0.6732	0.6562	0.6576
1.1638	5.0	5240	0.9940	0.6486	0.6485	0.6627	0.6435
0.6741	6.0	6288	1.0307	0.6628	0.6710	0.6711	0.6646
0.604	7.0	7336	1.0248	0.6667	0.6678	0.6751	0.6682
0.6835	8.0	8384	1.0396	0.6722	0.6803	0.6790	0.6743
0.5421	9.0	9432	1.0493	0.6714	0.6765	0.6785	0.6736
0.5728	10.0	10480	1.0601	0.6731	0.6761	0.6794	0.6738