wav2vec2-ser-english-finetunedオープンソースモデル - 英語の音声の6種類の感情を正確に識別し、精度は92.42%

ホーム

Wav2vec2 Ser English Finetuned

dihuzzによって開発

このモデルはWav2Vec2アーキテクチャをファインチューニングしており、英語音声における6つの感情状態（悲しみ、怒り、嫌悪、恐怖、幸福、中立）を認識するために特別に設計されており、精度は92.42%です。

音声分類

Safetensors

英語#高精度感情認識 #英語音声分析 #Wav2Vec2ファインチューニング

ダウンロード数 68

リリース時間 : 4/11/2025

モデル概要

英語音声感情認識タスク用にファインチューニングされたWav2Vec2モデルで、6つの基本感情を正確に分類できます。

モデル特徴

高精度

テストデータセットで92.42%の精度を達成、損失値はわずか0.219

多感情認識

6つの基本感情を認識可能：悲しみ、怒り、嫌悪、恐怖、幸福、中立

Wav2Vec2アーキテクチャ採用

Wav2Vec2の強力な特徴抽出能力を活用した音声感情分類

軽量推論

リアルタイムアプリケーションに適し、通常のGPUで効率的に動作

モデル能力

英語音声感情分類

リアルタイム感情分析

音声感情認識

使用事例

メンタルヘルス

心理状態モニタリング

音声分析によるユーザーの感情状態把握、メンタルヘルスアプリケーション向け

ユーザーの感情変化を自動検出

カスタマーサービス

コールセンター品質評価

カスタマーサービス通話中の感情状態分析

サービス品質向上に貢献

ヒューマンコンピュータインタラクション

感情認識音声アシスタント

ユーザーの感情を理解し適切に応答する音声アシスタント

ユーザー体験の向上

🚀 🎤 英語用Wav2Vec2音声感情認識

このモデルは、Wav2Vec2アーキテクチャを用いて英語の音声から感情を認識するために微調整されています。英語の音声に含まれる感情を高精度に検出することができます。

🚀 クイックスタート

このモデルは、英語の音声感情認識に特化しています。以下の手順で簡単に使用することができます。

✨ 主な機能

感情検出: 以下の感情を検出することができます。
- 😢 悲しみ
- 😠 怒り
- 🤢 嫌悪
- 😨 恐怖
- 😊 幸福
- 😐 中立
高精度: 精度が92.42%と高い性能を発揮します。

📦 インストール

pip install transformers torch torchaudio

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor
import torchaudio  

# Set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Using device:", device)

# Load the fine-tuned model and feature extractor
model_name = "dihuzz/wav2vec2-ser-english-finetuned"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name).to(device)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)

# Set the model to evaluation mode
model.eval()

# Load and preprocess the audio file
def predict_emotion(audio_path):
    # Load audio
    waveform, sample_rate = torchaudio.load(audio_path) 
    # Alternatively, librosa can also be used to load the audio file

    # Resample if necessary
    if sample_rate != 16000:
        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
        waveform = resampler(waveform)

    # Convert to mono if stereo
    if waveform.shape[0] > 1:
        waveform = torch.mean(waveform, dim=0, keepdim=True)

    # Extract features and move them to device
    inputs = feature_extractor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        padding=True
    )
    inputs = {k: v.to(device) for k, v in inputs.items()}

    # Perform inference (here we are using a batch size of 1 but you can increase batch size for faster inference)
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        predicted_class_id = torch.argmax(logits, dim=-1).item()

    # Map predicted class ID to emotion label
    label = model.config.id2label[predicted_class_id]
    return label

# Example usage
audio_file = "/path/to/your/audio.wav"
predicted_emotion = predict_emotion(audio_file)
print(f"Predicted Emotion: {predicted_emotion}")