wav2vec2-lg-xlsr-en-speech-emotion-recognitionオープンソースモデル - 8種類の英語の音声感情を高精度に識別

ホーム

Wav2vec2 Lg Xlsr En Speech Emotion Recognition

ehcalabresによって開発

Wav2Vec 2.0をファインチューニングした音声感情認識モデルで、8種類の英語感情を識別可能、RAVDESSデータセットで82.23%の精度を達成

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声感情認識 #高精度(82%)#英語感情分析

ダウンロード数 39.83k

リリース時間 : 3/2/2022

モデル概要

このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをファインチューニングした音声感情認識(SER)モデルで、英語音声の8種類の異なる感情を識別するために特別に設計されています。

モデル特徴

高精度

RAVDESSデータセットで82.23%の精度を達成

多感情認識

怒り、平静、嫌悪、恐怖、幸福、中立、悲しみ、驚きの8種類の感情を識別可能

Wav2Vec2.0ベース

強力なWav2Vec2.0アーキテクチャを特徴抽出と分類に利用

最適化されたトレーニング

入念に設計されたトレーニングプロセスとハイパーパラメータ最適化を採用

モデル能力

音声感情認識

英語音声分析

感情分類

使用事例

人間とコンピュータの相互作用

インテリジェントカスタマーサポート感情分析

顧客の音声から感情状態を分析し、カスタマーサービスの品質向上

顧客の感情状態を識別し、サポート担当者がより適切な対応を行うのを支援

メンタルヘルス

感情状態モニタリング

音声分析を通じてユーザーの感情変化を監視

メンタルヘルスアプリケーションでの感情追跡に利用可能

エンターテインメントアプリケーション

ゲーム感情インタラクション

プレイヤーの音声感情に基づいてゲーム体験を調整

よりパーソナライズされたゲームインタラクション体験を創造

🚀 Wav2Vec 2.0をファインチューニングした音声感情認識モデル

このモデルは、音声感情認識（SER）タスクのためにjonatasgrosman/wav2vec2-large-xlsr-53-englishをファインチューニングしたバージョンです。

元の事前学習モデルをファインチューニングするために使用されたデータセットはRAVDESSデータセットです。このデータセットは、英語で8種類の感情を演じる俳優の録音サンプルを1440個提供しています。感情の種類は以下の通りです。

emotions = ['angry', 'calm', 'disgust', 'fearful', 'happy', 'neutral', 'sad', 'surprised']

評価セットでは、以下の結果を達成しています。

損失: 0.5023
正解率: 0.8223

📚 モデルの詳細

詳細情報は後日提供予定です。

📋 想定用途と制限事項

詳細情報は後日提供予定です。

📊 学習と評価データ

詳細情報は後日提供予定です。

🛠️ 学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 0.0001
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 8
optimizer: Adam（betas=(0.9,0.999)、epsilon=1e-08）
lr_scheduler_type: linear
num_epochs: 3
mixed_precision_training: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	正解率
2.0752	0.21	30	2.0505	0.1359
2.0119	0.42	60	1.9340	0.2474
1.8073	0.63	90	1.5169	0.3902
1.5418	0.84	120	1.2373	0.5610
1.1432	1.05	150	1.1579	0.5610
0.9645	1.26	180	0.9610	0.6167
0.8811	1.47	210	0.8063	0.7178
0.8756	1.68	240	0.7379	0.7352
0.8208	1.89	270	0.6839	0.7596
0.7118	2.1	300	0.6664	0.7735
0.4261	2.31	330	0.6058	0.8014
0.4394	2.52	360	0.5754	0.8223
0.4581	2.72	390	0.4719	0.8467
0.3967	2.93	420	0.5023	0.8223

📄 引用情報

@misc {enrique_hernández_calabrés_2024,
	author       = { {Enrique Hernández Calabrés} },
	title        = { wav2vec2-lg-xlsr-en-speech-emotion-recognition (Revision 17cf17c) },
	year         = 2024,
	url          = { https://huggingface.co/ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition },
	doi          = { 10.57967/hf/2045 },
	publisher    = { Hugging Face }
}