W2v Speech Emotion Recognition_カテゴリ| AIbaseモデルライブラリ

ホーム

W2v Speech Emotion Recognition

Khoaによって開発

Wav2Vec2アーキテクチャをファインチューニングした英語音声感情認識モデル、6つの感情状態を識別可能

音声分類

Safetensors

英語オープンソースライセンス:MIT #英語音声感情分析 #多感情分類 #wav2vec2ファインチューニング

ダウンロード数 147

リリース時間 : 8/27/2024

モデル概要

このモデルは英語音声における感情状態（悲しみ、怒り、嫌悪、恐怖、幸福、中立）の識別に特化しています。Wav2Vec2アーキテクチャを基に、Kaggleの音声感情認識データセットでファインチューニングされました。

モデル特徴

多感情認識

6つの異なる感情状態を識別可能：悲しみ、怒り、嫌悪、恐怖、幸福、中立

高精度

テストデータセットで0.7435の精度を達成、特に怒りと中立感情の認識で優れた性能

Wav2Vec2アーキテクチャ採用

Wav2Vec2の強力な特徴抽出能力を活用、音声感情認識タスクに最適

モデル能力

英語音声感情認識

6感情分類

オーディオ特徴抽出

使用事例

感情分析

カスタマーサービス音声分析

カスタマーサービス通話における顧客感情の分析

不満のある顧客を特定しサービス品質向上に貢献

メンタルヘルスモニタリング

音声分析によるユーザー感情状態の監視

メンタルヘルス評価と早期介入を支援

人間と機械のインタラクション

インテリジェントアシスタント感情応答

ユーザーの音声感情に基づき応答方法を調整できるインテリジェントアシスタント

人間と機械のインタラクションの自然さと感情共鳴を向上

🚀 Wav2Vec2による英語の音声感情認識

このモデルは、Wav2Vec2アーキテクチャを用いて英語の音声感情を認識するためにファインチューニングされています。以下の感情を検出することができます。

悲しみ
怒り
嫌悪
恐怖
喜び
無感情

このモデルは、KaggleのSpeech Emotion Recognitionデータセットを用いて学習されました。このデータセットは英語の感情付き音声サンプルで構成されており、様々な感情状態がラベル付けされた音声ファイルが含まれているため、感情認識タスクのモデル学習に最適です。

🚀 クイックスタート

このモデルを使用するには、transformersとtorchaudioパッケージをインストールする必要があります。

pip install transformers
pip install torchaudio

以下は、英語の音声ファイルの感情を分類するためのモデルの使用例です。

from transformers import pipeline

# ファインチューニングされたモデルと特徴抽出器をロード
pipe = pipeline("audio-classification", model="Khoa/w2v-speech-emotion-recognition")

# 音声ファイルのパス
audio_file = "path_to_your_audio_file.wav"

# 感情分類を実行
predictions = pipe(audio_file)

# 予測結果を実際の感情ラベルにマッピング
label_map = {
    "LABEL_0": "sadness",
    "LABEL_1": "angry",
    "LABEL_2": "disgust",
    "LABEL_3": "fear",
    "LABEL_4": "happy",
    "LABEL_5": "neutral"
}

# 予測結果を読みやすいラベルに変換
mapped_predictions = [
    {"score": pred["score"], "label": label_map[pred["label"]]} 
    for pred in predictions
]

# 結果を表示
print(mapped_predictions)

モデルは、各感情に対するスコア付きの予測結果のリストを出力します。例えば、

[
    {"score": 0.95, "label": "angry"},
    {"score": 0.02, "label": "happy"},
    {"score": 0.01, "label": "disgust"},
    {"score": 0.01, "label": "neutral"},
    {"score": 0.01, "label": "fear"}
]

✨ 主な機能

英語の音声感情を高精度に認識できます。
6種類の感情（悲しみ、怒り、嫌悪、恐怖、喜び、無感情）を検出できます。

📦 インストール

このモデルを使用するには、transformersとtorchaudioパッケージをインストールする必要があります。

pip install transformers
pip install torchaudio

💻 使用例

基本的な使用法

from transformers import pipeline

# ファインチューニングされたモデルと特徴抽出器をロード
pipe = pipeline("audio-classification", model="Khoa/w2v-speech-emotion-recognition")

# 音声ファイルのパス
audio_file = "path_to_your_audio_file.wav"

# 感情分類を実行
predictions = pipe(audio_file)

# 予測結果を実際の感情ラベルにマッピング
label_map = {
    "LABEL_0": "sadness",
    "LABEL_1": "angry",
    "LABEL_2": "disgust",
    "LABEL_3": "fear",
    "LABEL_4": "happy",
    "LABEL_5": "neutral"
}

# 予測結果を読みやすいラベルに変換
mapped_predictions = [
    {"score": pred["score"], "label": label_map[pred["label"]]} 
    for pred in predictions
]

# 結果を表示
print(mapped_predictions)

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Wav2Vec2
言語	英語
学習データ	Speech Emotion Recognition Dataset (Kaggle)
検出感情	悲しみ、怒り、嫌悪、恐怖、喜び、無感情

学習結果

このモデルは、テストセットで以下の結果を達成しました。

テスト精度: 0.7435
分類レポート:

              precision    recall  f1-score   support

     sadness       0.68      0.71      0.70       251
       angry       0.75      0.93      0.83       258
     disgust       0.86      0.64      0.73       250
        fear       0.75      0.61      0.67       287
       happy       0.73      0.68      0.71       231
     neutral       0.72      0.92      0.81       212

    accuracy                           0.74      1489
   macro avg       0.75      0.75      0.74      1489
weighted avg       0.75      0.74      0.74      1489