CREMA_D_Modelオープンソース音声感情認識モデル - 無料で使用可能、評価セットの正解率は73.22%に達する

CREMA D Model

jdmartinevによって開発

facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、評価データセットで73.22%の精度を達成

ダウンロード数 21

リリース時間 : 5/3/2023

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声感情認識モデルで、音声から感情カテゴリを識別可能

高精度

評価データセットで73.22%の精度を達成し、ランダム推測を上回る性能

wav2vec2アーキテクチャ採用

実績のあるwav2vec2-baseをベースモデルとして使用し、強力な音声特徴抽出能力を有する

エンドツーエンド学習

モデルは生の音声波形から直接学習し、感情カテゴリを予測可能

音声感情認識

音声特徴抽出

感情分類

人間とコンピュータの相互作用

インテリジェントカスタマーサポート感情分析

顧客の音声から感情状態を分析し、より人間らしい対応が可能なカスタマーサポートシステムを実現

メンタルヘルス

感情状態モニタリング

音声分析を通じてユーザーの感情変化を追跡し、メンタルヘルスアプリケーションに活用

トレーニング損失	エポック	ステップ	検証損失	正解率
1.7381	0.99	37	1.6700	0.3359
1.4143	1.99	74	1.4013	0.4878
1.1738	2.98	111	1.1820	0.6029
1.0229	4.0	149	1.0244	0.6532
0.8688	4.99	186	0.9101	0.7036
0.7578	5.99	223	0.8787	0.7112
0.705	6.98	260	0.8292	0.7229
0.6469	8.0	298	0.8509	0.7179
0.5684	8.99	335	0.8412	0.7288
0.5611	9.93	370	0.8221	0.7322