Speech_Emotion_Recognition_wav2vec2オープンソース音声感情認識モデル

ホーム

Speech Emotion Recognition Wav2vec2 Large Xlsr 53 240304 SER Fine Tuned2.0

hughlan1214によって開発

wav2vec2-large-xlsr-53ベースの音声感情認識モデル、7種類の感情分類に対応

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声感情認識 #多言語対応 #リアルタイム感情推論

ダウンロード数 145

リリース時間 : 3/4/2024

モデル概要

このモデルはfacebook/wav2vec2-large-xlsr-53をファインチューニングして実現され、音声中の7種類の感情タイプ（怒り、嫌悪、恐怖、喜び、中立、悲しみ、驚き）を識別でき、マルチモーダル感情分析の基礎を提供します。

モデル特徴

言語横断能力

英語データのみで訓練されていますが、中国語とフランス語の感情認識でも良好な性能を発揮します

多感情分類

7種類の異なる人間の基本感情状態を識別可能

複数データセット融合訓練

Crema、Ravdess、Savee、Tessの4つの主流音声感情データセットの融合データで訓練

モデル能力

音声感情認識

言語横断感情分析

リアルタイム感情推論

使用事例

人間とコンピュータの相互作用

インテリジェントカスタマーサポート感情分析

顧客の音声中の感情状態をリアルタイム分析

カスタマーサポートの応答品質とユーザー体験を向上

メンタルヘルス

感情状態モニタリング

音声分析を通じてユーザーの感情変化を把握

メンタルヘルス評価を補助

🚀 SER_wav2vec2-large-xlsr-53_240304_fine-tuned_2

このモデルは、Speech Emotion Recognition (en) データセット上で hughlan1214/SER_wav2vec2-large-xlsr-53_240304_fine-tuned1.1 をファインチューニングしたバージョンです。

このデータセットには、英語の最も人気のある4つのデータセット（Crema、Ravdess、Savee、Tess）が含まれており、合計で12,000を超える .wav オーディオファイルが含まれています。これら4つのデータセットのそれぞれには、6から8の異なる感情ラベルが含まれています。

このモデルは、評価セットで以下の結果を達成しています。

損失: 1.0601
正解率: 0.6731
適合率: 0.6761
再現率: 0.6794
F1値: 0.6738

🚀 クイックスタート

このモデルは、音声に含まれる感情を高精度に予測するために開発されました。以下のセクションでは、モデルの詳細、使用目的、トレーニングデータ、トレーニング手順について説明します。

✨ 主な機能

音声に含まれる7種類の感情を予測することができます。
英語のデータセットでトレーニングされていますが、中国語やフランス語の感情予測にも良好な性能を発揮します。

📚 ドキュメント

モデルの説明

このモデルは、facebook/wav2vec2-large-xlsr-53 を使用して特徴抽出を行い、数ラウンドのファインチューニングを経て得られました。音声に含まれる7種類の感情を予測し、視覚レベルでの人間のマイクロ表情やLLMS下のコンテキストセマンティクスを用いてユーザーの感情をリアルタイムに推測するための基礎を築くことを目指しています。

モデルは純粋な英語のデータセットでトレーニングされていますが、リリース後のテストでは、中国語やフランス語の感情予測にも良好な性能を発揮しており、facebook/wav2vec2-large-xlsr-53 事前学習モデルの強力なクロス言語能力を示しています。

emotions = ['angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise']

想定される使用目的と制限

詳細情報は後日提供予定です。

トレーニングと評価データ

データセット全体の70/30を使用しました。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 4
seed: 42
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 10

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	正解率	適合率	再現率	F1値
0.8904	1.0	1048	1.1923	0.5773	0.6162	0.5563	0.5494
1.1394	2.0	2096	1.0143	0.6071	0.6481	0.6189	0.6057
0.9373	3.0	3144	1.0585	0.6126	0.6296	0.6254	0.6119
0.7405	4.0	4192	0.9580	0.6514	0.6732	0.6562	0.6576
1.1638	5.0	5240	0.9940	0.6486	0.6485	0.6627	0.6435
0.6741	6.0	6288	1.0307	0.6628	0.6710	0.6711	0.6646
0.604	7.0	7336	1.0248	0.6667	0.6678	0.6751	0.6682
0.6835	8.0	8384	1.0396	0.6722	0.6803	0.6790	0.6743
0.5421	9.0	9432	1.0493	0.6714	0.6765	0.6785	0.6736
0.5728	10.0	10480	1.0601	0.6731	0.6761	0.6794	0.6738