🚀 Wav2Vec2による英語の音声感情認識
このモデルは、Wav2Vec2アーキテクチャを用いて英語の音声感情を認識するためにファインチューニングされています。以下の感情を検出することができます。
このモデルは、KaggleのSpeech Emotion Recognitionデータセットを用いて学習されました。このデータセットは英語の感情付き音声サンプルで構成されており、様々な感情状態がラベル付けされた音声ファイルが含まれているため、感情認識タスクのモデル学習に最適です。
🚀 クイックスタート
このモデルを使用するには、transformers
とtorchaudio
パッケージをインストールする必要があります。
pip install transformers
pip install torchaudio
以下は、英語の音声ファイルの感情を分類するためのモデルの使用例です。
from transformers import pipeline
pipe = pipeline("audio-classification", model="Khoa/w2v-speech-emotion-recognition")
audio_file = "path_to_your_audio_file.wav"
predictions = pipe(audio_file)
label_map = {
"LABEL_0": "sadness",
"LABEL_1": "angry",
"LABEL_2": "disgust",
"LABEL_3": "fear",
"LABEL_4": "happy",
"LABEL_5": "neutral"
}
mapped_predictions = [
{"score": pred["score"], "label": label_map[pred["label"]]}
for pred in predictions
]
print(mapped_predictions)
モデルは、各感情に対するスコア付きの予測結果のリストを出力します。例えば、
[
{"score": 0.95, "label": "angry"},
{"score": 0.02, "label": "happy"},
{"score": 0.01, "label": "disgust"},
{"score": 0.01, "label": "neutral"},
{"score": 0.01, "label": "fear"}
]
✨ 主な機能
- 英語の音声感情を高精度に認識できます。
- 6種類の感情(悲しみ、怒り、嫌悪、恐怖、喜び、無感情)を検出できます。
📦 インストール
このモデルを使用するには、transformers
とtorchaudio
パッケージをインストールする必要があります。
pip install transformers
pip install torchaudio
💻 使用例
基本的な使用法
from transformers import pipeline
pipe = pipeline("audio-classification", model="Khoa/w2v-speech-emotion-recognition")
audio_file = "path_to_your_audio_file.wav"
predictions = pipe(audio_file)
label_map = {
"LABEL_0": "sadness",
"LABEL_1": "angry",
"LABEL_2": "disgust",
"LABEL_3": "fear",
"LABEL_4": "happy",
"LABEL_5": "neutral"
}
mapped_predictions = [
{"score": pred["score"], "label": label_map[pred["label"]]}
for pred in predictions
]
print(mapped_predictions)
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
Wav2Vec2 |
言語 |
英語 |
学習データ |
Speech Emotion Recognition Dataset (Kaggle) |
検出感情 |
悲しみ、怒り、嫌悪、恐怖、喜び、無感情 |
学習結果
このモデルは、テストセットで以下の結果を達成しました。
precision recall f1-score support
sadness 0.68 0.71 0.70 251
angry 0.75 0.93 0.83 258
disgust 0.86 0.64 0.73 250
fear 0.75 0.61 0.67 287
happy 0.73 0.68 0.71 231
neutral 0.72 0.92 0.81 212
accuracy 0.74 1489
macro avg 0.75 0.75 0.74 1489
weighted avg 0.75 0.74 0.74 1489
学習の詳細
このモデルは、Wav2Vec2アーキテクチャを使用して、Speech Emotion Recognitionデータセットでファインチューニングされました。学習プロセスには、学習率1e-5で複数のエポックが含まれていました。
制限事項とバイアス
このモデルは英語の音声データで特に学習されており、他の言語や方言では性能が低下する可能性があります。また、他の機械学習モデルと同様に、学習データに存在するバイアスがモデルの予測に影響を与える可能性があります。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。