Hubert_emotion開源語音情感識別模型 - 從音頻中精準識別說話者情感狀態

首頁

Hubert Emotion

由Rajaram1996開發

基於Hubert架構的語音情感識別模型，能夠從音頻中識別說話者的情感狀態。

音頻分類

Transformers

#語音情感識別 #性別區分情感 #高精度分類

下載量 76

發布時間 : 3/2/2022

模型概述

該模型使用Hubert架構進行訓練，專門用於語音情感分類任務。它可以識別多種情感狀態，如悲傷、恐懼等，並給出每種情感的概率分數。

模型特點

高精度情感識別

能夠準確識別多種語音情感狀態，如悲傷、恐懼等。

基於Hubert架構

利用Hubert模型的強大特徵提取能力進行情感分類。

概率輸出

提供每種情感的概率分數，而不僅僅是單一分類結果。

模型能力

語音情感識別

音頻分類

概率評分輸出

使用案例

心理健康

情緒狀態監測

通過語音分析監測用戶的情緒變化

可識別悲傷、恐懼等負面情緒

人機交互

情感化語音助手

使語音助手能夠根據用戶情緒調整響應方式

提升交互體驗

🚀 基於預訓練模型的音頻情感預測項目

本項目提供了一個使用預訓練模型對本地音頻文件進行情感預測的工作示例，藉助HUBert模型實現音頻分類，能夠有效識別音頻中的情感信息。

🚀 快速開始

以下是使用預訓練模型預測本地音頻文件情感的示例代碼：

def predict_emotion_hubert(audio_file):
    """ inspired by an example from https://github.com/m3hrdadfi/soxan """
    from audio_models import HubertForSpeechClassification
    from transformers import  Wav2Vec2FeatureExtractor, AutoConfig
    import torch.nn.functional as F
    import torch
    import numpy as np
    from pydub import AudioSegment

    model = HubertForSpeechClassification.from_pretrained("Rajaram1996/Hubert_emotion") # Downloading: 362M
    feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("facebook/hubert-base-ls960")
    sampling_rate=16000 # defined by the model; must convert mp3 to this rate.
    config = AutoConfig.from_pretrained("Rajaram1996/Hubert_emotion")

    def speech_file_to_array(path, sampling_rate):
        # using torchaudio...
        # speech_array, _sampling_rate = torchaudio.load(path)
        # resampler = torchaudio.transforms.Resample(_sampling_rate, sampling_rate)
        # speech = resampler(speech_array).squeeze().numpy()
        sound = AudioSegment.from_file(path)
        sound = sound.set_frame_rate(sampling_rate)
        sound_array = np.array(sound.get_array_of_samples())
        return sound_array

    sound_array = speech_file_to_array(audio_file, sampling_rate)
    inputs = feature_extractor(sound_array, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
    inputs = {key: inputs[key].to("cpu").float() for key in inputs}

    with torch.no_grad():
        logits = model(**inputs).logits

    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
    outputs = [{
        "emo": config.id2label[i],
        "score": round(score * 100, 1)}
        for i, score in enumerate(scores)
    ]
    return [row for row in sorted(outputs, key=lambda x:x["score"], reverse=True) if row['score'] != '0.0%'][:2]

基礎用法

result = predict_emotion_hubert("male-crying.mp3")
>>> result
[{'emo': 'male_sad', 'score': 91.0}, {'emo': 'male_fear', 'score': 4.8}]

💡 使用建議

確保音頻文件的採樣率轉換為模型所要求的16000Hz。

代碼運行環境需安裝audio_models、transformers、torch、numpy、pydub等相關依賴庫。

📦 安裝指南

由於原文檔未提供具體的安裝步驟，此部分暫不展示。

🔧 技術細節

由於原文檔未提供具體的技術實現細節，此部分暫不展示。

📄 許可證

由於原文檔未提供許可證信息，此部分暫不展示。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫