wav2vec2-ser-english-finetuned開源模型 - 精準識別英語語音六種情緒，準確率92.42%

首頁

Wav2vec2 Ser English Finetuned

由dihuzz開發

該模型基於Wav2Vec2架構微調訓練，專門用於識別英語語音中的六種情緒狀態（悲傷、憤怒、厭惡、恐懼、快樂、中性），準確率達92.42%。

音頻分類

Safetensors

英語#高精度情緒識別 #英語語音分析 #Wav2Vec2微調

下載量 68

發布時間 : 4/11/2025

模型概述

一個經過微調的Wav2Vec2模型，用於英語語音情緒識別任務，能夠準確分類六種基本情緒。

模型特點

高準確率

在測試集上達到92.42%的準確率，損失值僅為0.219

多情緒識別

可識別六種基本情緒：悲傷、憤怒、厭惡、恐懼、快樂和中性

基於Wav2Vec2架構

利用Wav2Vec2的強大特徵提取能力進行語音情緒分類

輕量級推理

適合即時應用場景，可在普通GPU上高效運行

模型能力

英語語音情緒分類

即時情緒分析

語音情感識別

使用案例

心理健康

心理狀態監測

通過語音分析用戶情緒狀態，用於心理健康應用

可自動識別用戶情緒變化

客戶服務

客服質量評估

分析客服通話中的情緒狀態

幫助提升服務質量

人機交互

情感化語音助手

使語音助手能夠理解用戶情緒並做出相應回應

提升用戶體驗

🚀 🎤 Wav2Vec2英文語音情感識別

本項目基於Wav2Vec2架構，專注於英文語音的情感識別。通過對特定模型的微調，能夠準確識別多種常見情感，為語音情感分析提供了有效的解決方案。

🚀 快速開始

🔌 安裝

pip install transformers torch torchaudio

💻 使用示例

以下是使用該模型對 .wav 格式的英文音頻文件進行情感分類的示例代碼：

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor
import torchaudio  

# Set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Using device:", device)

# Load the fine-tuned model and feature extractor
model_name = "dihuzz/wav2vec2-ser-english-finetuned"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name).to(device)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)

# Set the model to evaluation mode
model.eval()

# Load and preprocess the audio file
def predict_emotion(audio_path):
    # Load audio
    waveform, sample_rate = torchaudio.load(audio_path) 
    # Alternatively, librosa can also be used to load the audio file

    # Resample if necessary
    if sample_rate != 16000:
        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
        waveform = resampler(waveform)

    # Convert to mono if stereo
    if waveform.shape[0] > 1:
        waveform = torch.mean(waveform, dim=0, keepdim=True)

    # Extract features and move them to device
    inputs = feature_extractor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        padding=True
    )
    inputs = {k: v.to(device) for k, v in inputs.items()}

    # Perform inference (here we are using a batch size of 1 but you can increase batch size for faster inference)
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        predicted_class_id = torch.argmax(logits, dim=-1).item()

    # Map predicted class ID to emotion label
    label = model.config.id2label[predicted_class_id]
    return label

# Example usage
audio_file = "/path/to/your/audio.wav"
predicted_emotion = predict_emotion(audio_file)
print(f"Predicted Emotion: {predicted_emotion}")

📝 示例輸出

模型會返回一個表示預測情感的字符串：

Predicted Emotion: <emotion_label>

✨ 主要特性

情感識別能力：能夠識別悲傷、憤怒、厭惡、恐懼、快樂和中性六種常見情感。
高精度表現：在相關數據集上達到了 92.42% 的準確率。

📦 安裝指南

使用以下命令安裝所需的庫：

pip install transformers torch torchaudio

📚 詳細文檔

🧠 模型概述

模型名稱：dihuzz/wav2vec2-ser-english-finetuned
模型功能：該模型基於Wav2Vec2架構進行微調，用於識別英文語音中的情感。可檢測的情感包括：
- 😢 悲傷
- 😠 憤怒
- 🤢 厭惡
- 😨 恐懼
- 😊 快樂
- 😐 中性
模型創建方式：通過在多個包含英文情感語音樣本的著名語音情感識別數據集上微調 r-f/wav2vec-english-speech-emotion-recognition 模型而創建。

📊 性能指標：

🎯 準確率：92.42%
📉 損失：0.219

🏋️ 訓練過程

⚙️ 訓練詳情

基礎模型：r-f/wav2vec-english-speech-emotion-recognition
💻 硬件：Kaggle上的P100 GPU
⏱ 訓練時長：10個epoch
📚 學習率：5e-4
🧩 批量大小：4
📈 梯度累積步數：8
⚖️ 優化器：AdamW (β₁=0.9, β₂=0.999)
📉 損失函數：交叉熵損失
⏳ 學習率調度器：無

📜 訓練結果

輪次	損失	準確率
1	1.0257	61.20%
2	0.7025	73.88%
3	0.5901	78.25%
4	0.4960	81.56%
5	0.4105	85.04%
6	0.3516	87.70%
7	0.3140	88.87%
8	0.2649	90.45%
9	0.2178	92.42%
10	0.2187	92.29%

🔧 技術細節

該模型基於Wav2Vec2架構，通過在特定數據集上的微調，使其能夠適應英文語音情感識別任務。在訓練過程中，採用了AdamW優化器和交叉熵損失函數，經過10個epoch的訓練，達到了較高的準確率。

⚠️ 侷限性

⚠️ 重要提示

該模型存在以下重要侷限性：

🌐 語言特定性：僅支持英文。

🗣️ 方言敏感性：在不同口音上的性能表現有所差異。

🎧 音頻質量要求：需要乾淨、清晰的錄音。

⚖️ 潛在偏差：可能反映訓練數據中的文化偏差。

6️⃣ 類別有限：僅能檢測6種基本情感。

🧠 上下文無關：不考慮語音內容的含義。