W

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

audeeringによって開発
このモデルはWav2Vec2-Large-Robustをファインチューニングして訓練され、音声感情認識に使用され、覚醒度、支配度、価値の3つの次元の予測値を出力します。
ダウンロード数 394.51k
リリース時間 : 4/6/2022

モデル概要

このモデルは生音声信号を入力として受け取り、覚醒度、支配度、価値の3つの次元の予測値(範囲は約0...1)を出力し、同時に最後のtransformer層のプーリング状態を提供します。

モデル特徴

次元感情認識
覚醒度、支配度、価値の3つの連続次元値を予測し、離散的な感情カテゴリーではない
事前訓練モデルのファインチューニング
Wav2Vec2-Large-Robustをベースにファインチューニングし、大規模な自己教師あり事前訓練の利点を活用
特徴抽出能力
最後のtransformer層のプーリング状態を音声特徴ベクトルとして出力可能
モデル最適化
元の24層Transformerを12層に剪定し、性能と効率のバランスを取った

モデル能力

音声感情分析
音声特徴抽出
連続次元感情予測

使用事例

人間とコンピュータの相互作用
インテリジェントカスタマーサポート感情分析
ユーザーの音声中の感情状態を分析し、カスタマーサポートの応答戦略を最適化
ユーザーの感情変化を定量化可能
メンタルヘルス
感情状態モニタリング
音声分析を通じてうつ病などの心理疾患患者の感情変動をモニタリング
客観的な感情次元指標を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase