wav2vec2-large-xlsr-53-th-speech-emotion-recognition-3c-10epオープンソースモデル

Wav2vec2 Large Xlsr 53 Th Speech Emotion Recognition 3c 10ep

Paranchaiによって開発

airesearch/wav2vec2-large-xlsr-53-thをファインチューニングした音声感情認識モデルで、評価セットで85.79%の精度を達成

ダウンロード数 9

リリース時間 : 10/14/2024

モデル概要

このモデルはタイ語音声感情認識タスク向けにファインチューニングされたwav2vec2モデルで、音声中の感情カテゴリを識別可能

高精度

評価セットで85.79%の感情認識精度を達成

事前学習モデルベース

強力なairesearch/wav2vec2-large-xlsr-53-thモデルをベースにファインチューニング

最適化トレーニング

10エポックの精密チューニングを実施、線形学習率スケジューリングとウォームアップを採用

タイ語音声感情認識

音声特徴抽出

3分類感情認識

感情分析

カスタマーサービス音声感情分析

カスタマーサービス通話中の顧客感情状態を分析

85.79%の感情カテゴリを識別可能

メンタルヘルスモニタリング

音声を通じてユーザーの情緒状態を分析

トレーニング損失	エポック	ステップ	検証損失	正解率
1.0361	0.9956	57	0.9022	0.6033
0.6365	1.9913	114	0.6374	0.7322
0.5076	2.9869	171	0.4952	0.7967
0.4822	4.0	229	0.4808	0.8098
0.4601	4.9956	286	0.4637	0.8306
0.3938	5.9913	343	0.4559	0.8317
0.365	6.9869	400	0.4052	0.8546
0.3498	8.0	458	0.3902	0.8590
0.3246	8.9956	515	0.4144	0.8546
0.3388	9.9563	570	0.4026	0.8579