wav2vec2-xls-r-300m開源語音情感識別模型 - 精準識別葡萄牙語自發語音情感

Wav2vec2 Xls R 300m Pt Br Spontaneous Speech Emotion Recognition

由alefiury開發

基於Wav2vec 2.0 XLS-R架構的語音情感識別模型，在葡萄牙語自發語音情感識別任務中表現優異

下載量 16

發布時間 : 3/23/2022

模型概述

該模型專門用於識別自發語音中的情感狀態，支持多種語言的情感分析，在SE&R 2022比賽中獲得情感識別賽道第一名

多語言情感識別

支持葡萄牙語、意大利語、英語和阿拉伯語的情感狀態識別

自發語音優化

專門針對自發語音場景優化，能有效處理非標準發音和自然對話中的情感表達

高性能表現

在測試集上達到81.87%的宏平均F1分數，準確率達90.90%

語音情感分類

多語言語音處理

自發語音分析

情感分析

客服對話情感監測

即時分析客戶服務通話中的客戶情感狀態

可識別中性、積極和消極情緒，幫助改進服務質量

心理狀態評估

通過語音分析評估說話者的心理狀態

可輔助心理諮詢師進行初步情緒狀態判斷

語音交互

智能語音助手

使語音助手能根據用戶情緒調整響應方式

提升人機交互的自然度和用戶體驗

本模型在葡萄牙語自然和準備語音的自動語音識別與語音情感識別（SE&R 2022）研討會的 SER 賽道中榮獲第一名。它能夠對語音情感進行精準識別，在多個語音數據集上進行訓練，具有較高的準確率和泛化能力，為語音情感識別領域提供了優秀的解決方案。

此模型可用於自然語音情感識別任務，下面為你介紹其相關信息。

以下數據集用於模型訓練：

CORAA SER v1.0：該數據集由自然葡萄牙語語音組成，約 40 分鐘的音頻片段被標記為三個類別：中性、非中性女性和非中性男性。
EMOVO 語料庫：這是一個意大利語情感語音數據庫，由多達 6 名演員的語音構建而成，他們朗讀 14 個句子，模擬 6 種情緒狀態（厭惡、恐懼、憤怒、喜悅、驚訝、悲傷）以及中性狀態。
RAVDESS：該數據集提供了 1440 個英語語音樣本，演員表演 8 種不同的情緒，分別是：憤怒、平靜、厭惡、恐懼、快樂、中性、悲傷和驚訝。
BAVED：這是一個阿拉伯語語音情感數據集，包含七個單詞，以三種情感水平朗讀：低情感（疲倦或情緒低落）、中性情感（日常說話方式）和高情感（積極或消極情緒，如快樂、喜悅、悲傷、憤怒）。