開源wav2vec2-xlsr-53-russian-emotion-recognition模型

首頁

Wav2vec2 Xlsr 53 Russian Emotion Recognition

由Aniemore開發

這是一個基於XLS-R Wav2Vec2架構的俄語語音情感識別模型，能夠識別7種基本情感，準確率達72%。

音頻分類

Transformers

其他開源協議:MIT #俄語語音情感識別 #多情感分類 #Wav2Vec2架構

下載量 1,106

發布時間 : 5/22/2022

模型概述

該模型專門用於俄語語音中的情感識別，能夠分析音頻文件並識別憤怒、厭惡、興奮、恐懼、快樂、中性和悲傷等情感。

模型特點

高精度情感識別

在俄語情感語音數據集上達到72%的準確率

多情感分類

能夠識別7種不同的情感狀態

基於Wav2Vec2架構

利用先進的語音表示學習技術

模型能力

俄語語音情感識別

音頻情感分類

語音情感分析

使用案例

人機交互

客服情緒分析

分析客戶服務通話中的客戶情緒

可識別客戶不滿情緒，提高服務質量

心理健康

情緒狀態監測

通過語音分析用戶情緒狀態

可用於心理健康應用的情緒監測

🚀 XLS - R Wav2Vec2 用於俄語語音情感分類

本項目提供了一個基於 XLS - R Wav2Vec2 的模型，可用於俄語語音的情感分類，能識別憤怒、厭惡、熱情等多種情感。

🚀 快速開始

準備與導入

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchaudio
from transformers import AutoConfig, AutoModel, Wav2Vec2FeatureExtractor

import librosa
import numpy as np


def speech_file_to_array_fn(path, sampling_rate):
    speech_array, _sampling_rate = torchaudio.load(path)
    resampler = torchaudio.transforms.Resample(_sampling_rate)
    speech = resampler(speech_array).squeeze().numpy()
    return speech


def predict(path, sampling_rate):
    speech = speech_file_to_array_fn(path, sampling_rate)
    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
    inputs = {key: inputs[key].to(device) for key in inputs}

    with torch.no_grad():
        logits = model_(**inputs).logits

    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
    outputs = [{"Emotion": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
    return outputs

模型加載

TRUST = True

config = AutoConfig.from_pretrained('Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition', trust_remote_code=TRUST)
model_ = AutoModel.from_pretrained("Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition", trust_remote_code=TRUST)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_.to(device)

💻 使用示例

基礎用法

result = predict("/path/to/russian_audio_speech.wav", 16000)
print(result)

輸出示例

# outputs
[{'Emotion': 'anger', 'Score': '0.0%'},
 {'Emotion': 'disgust', 'Score': '100.0%'},
 {'Emotion': 'enthusiasm', 'Score': '0.0%'},
 {'Emotion': 'fear', 'Score': '0.0%'},
 {'Emotion': 'happiness', 'Score': '0.0%'},
 {'Emotion': 'neutral', 'Score': '0.0%'},
 {'Emotion': 'sadness', 'Score': '0.0%'}]

📚 詳細文檔

模型信息

屬性	詳情
模型類型	XLS - R Wav2Vec2 用於俄語語音情感分類
訓練數據	Aniemore/resd

評估結果

情感類別	精確率	召回率	F1 - 分數	樣本數
憤怒	0.97	0.86	0.92	44
厭惡	0.71	0.78	0.74	37
熱情	0.51	0.80	0.62	40
恐懼	0.80	0.62	0.70	45
快樂	0.66	0.70	0.68	44
中立	0.81	0.66	0.72	38
悲傷	0.79	0.59	0.68	32
準確率			0.72	280
宏平均	0.75	0.72	0.72	280
加權平均	0.75	0.72	0.73	280

📄 許可證

本項目採用 MIT 許可證。

📖 引用

@misc{Aniemore,
  author = {Артем Аментес, Илья Лубенец, Никита Давидчук},
  title = {Открытая библиотека искусственного интеллекта для анализа и выявления эмоциональных оттенков речи человека},
  year = {2022},
  publisher = {Hugging Face},
  journal = {Hugging Face Hub},
  howpublished = {\url{https://huggingface.com/aniemore/Aniemore}},
  email = {hello@socialcode.ru}
}