wav2vec2-large-robust-12-ft-emotion-msp-dim开源模型 - 精准实现语音情感识别分析

首页

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

由 audeering 开发

该模型通过对Wav2Vec2-Large-Robust进行微调训练，用于语音情感识别，输出唤醒度、支配度和效价三个维度的预测值。

音频分类

Transformers

英语#语音情感三维度识别 #Wav2Vec2微调 #原始音频输入

下载量 394.51k

发布时间 : 4/6/2022

模型简介

本模型接收原始音频信号输入，输出唤醒度、支配度和效价三个维度的预测值（范围约0...1），同时提供最后transformer层的池化状态。

模型特点

维度情感识别

预测唤醒度、支配度和效价三个连续维度值，而非离散情感类别

预训练模型微调

基于Wav2Vec2-Large-Robust进行微调，利用了大规模自监督预训练的优势

特征提取能力

可输出最后transformer层的池化状态作为语音特征向量

模型优化

原始24层Transformer被剪枝至12层，平衡了性能与效率

模型能力

语音情感分析

语音特征提取

连续维度情感预测

使用案例

人机交互

智能客服情绪分析

分析用户语音中的情绪状态，优化客服响应策略

可量化用户情绪变化

心理健康

情绪状态监测

通过语音分析监测抑郁症等心理疾病患者的情绪波动

提供客观的情绪维度指标

🚀 基于Wav2vec 2.0的维度语音情感识别模型

本模型专为研究目的而设计。若你需要一个基于更多数据训练的模型商业许可，可通过 audEERING 获取。该模型以原始音频信号作为输入，输出唤醒度、支配度和效价的预测值，范围大致在 0 到 1 之间。此外，它还会提供最后一个Transformer层的池化状态。此模型是通过在 MSP-Podcast（v1.7）上对 Wav2Vec2-Large-Robust 进行微调而创建的。在微调之前，模型从 24 个Transformer层修剪至 12 个。该模型的 ONNX 导出文件可从 doi:10.5281/zenodo.6221127 获取。相关详细信息可在关联的论文和教程中找到。

🚀 快速开始

本模型主要用于维度语音情感识别，以原始音频信号为输入，输出唤醒度、支配度和效价的预测值。

📦 安装指南

文档未提及具体安装步骤，可参考相关库的官方安装指南，如 transformers 库等。

💻 使用示例

基础用法

import numpy as np
import torch
import torch.nn as nn
from transformers import Wav2Vec2Processor
from transformers.models.wav2vec2.modeling_wav2vec2 import (
    Wav2Vec2Model,
    Wav2Vec2PreTrainedModel,
)


class RegressionHead(nn.Module):
    r"""Classification head."""

    def __init__(self, config):

        super().__init__()

        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        self.dropout = nn.Dropout(config.final_dropout)
        self.out_proj = nn.Linear(config.hidden_size, config.num_labels)

    def forward(self, features, **kwargs):

        x = features
        x = self.dropout(x)
        x = self.dense(x)
        x = torch.tanh(x)
        x = self.dropout(x)
        x = self.out_proj(x)

        return x


class EmotionModel(Wav2Vec2PreTrainedModel):
    r"""Speech emotion classifier."""

    def __init__(self, config):

        super().__init__(config)

        self.config = config
        self.wav2vec2 = Wav2Vec2Model(config)
        self.classifier = RegressionHead(config)
        self.init_weights()

    def forward(
            self,
            input_values,
    ):

        outputs = self.wav2vec2(input_values)
        hidden_states = outputs[0]
        hidden_states = torch.mean(hidden_states, dim=1)
        logits = self.classifier(hidden_states)

        return hidden_states, logits


# load model from hub
device = 'cpu'
model_name = 'audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim'
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = EmotionModel.from_pretrained(model_name).to(device)

# dummy signal
sampling_rate = 16000
signal = np.zeros((1, sampling_rate), dtype=np.float32)


def process_func(
    x: np.ndarray,
    sampling_rate: int,
    embeddings: bool = False,
) -> np.ndarray:
    r"""Predict emotions or extract embeddings from raw audio signal."""

    # run through processor to normalize signal
    # always returns a batch, so we just get the first entry
    # then we put it on the device
    y = processor(x, sampling_rate=sampling_rate)
    y = y['input_values'][0]
    y = y.reshape(1, -1)
    y = torch.from_numpy(y).to(device)

    # run through model
    with torch.no_grad():
        y = model(y)[0 if embeddings else 1]

    # convert to numpy
    y = y.detach().cpu().numpy()

    return y


print(process_func(signal, sampling_rate))
#  Arousal    dominance valence
# [[0.5460754  0.6062266  0.40431657]]

print(process_func(signal, sampling_rate, embeddings=True))
# Pooled hidden states of last transformer layer
# [[-0.00752167  0.0065819  -0.00746342 ...  0.00663632  0.00848748
#    0.00599211]]

高级用法

文档未提及高级用法相关代码示例。

📚 详细文档

模型以原始音频信号作为输入，输出唤醒度、支配度和效价的预测值，范围大致在 0 到 1 之间。还会提供最后一个Transformer层的池化状态。模型是在 MSP-Podcast（v1.7）上对 Wav2Vec2-Large-Robust 进行微调得到的，微调前从 24 个Transformer层修剪至 12 个。模型的 ONNX 导出文件可从 doi:10.5281/zenodo.6221127 获取，更多详细信息可查看关联的论文和教程。