W

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

由audeering開發
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
下載量 394.51k
發布時間 : 4/6/2022

模型概述

本模型接收原始音頻信號輸入,輸出喚醒度、支配度和效價三個維度的預測值(範圍約0...1),同時提供最後transformer層的池化狀態。

模型特點

維度情感識別
預測喚醒度、支配度和效價三個連續維度值,而非離散情感類別
預訓練模型微調
基於Wav2Vec2-Large-Robust進行微調,利用了大規模自監督預訓練的優勢
特徵提取能力
可輸出最後transformer層的池化狀態作為語音特徵向量
模型優化
原始24層Transformer被剪枝至12層,平衡了性能與效率

模型能力

語音情感分析
語音特徵提取
連續維度情感預測

使用案例

人機交互
智能客服情緒分析
分析用戶語音中的情緒狀態,優化客服響應策略
可量化用戶情緒變化
心理健康
情緒狀態監測
通過語音分析監測抑鬱症等心理疾病患者的情緒波動
提供客觀的情緒維度指標
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase