SER-Odyssey-Baseline-WavLM-Valenceオープンソースモデル - 音声の0から1の有効価値を高精度で予測

ホーム

SER Odyssey Baseline WavLM Valence

3loiによって開発

WavLMアーキテクチャに基づく音声感情認識モデルで、音声中の感情価値（valence）を0から1の範囲で予測するために特別に設計されています。

音声分類

Transformers

英語オープンソースライセンス:MIT #音声感情価値認識 #WavLMアーキテクチャ #MSP-Podcastデータセット

ダウンロード数 71

リリース時間 : 3/15/2024

モデル概要

このモデルはOdyssey 2024感情認識コンペティション向けに開発されたベースラインモデルで、シングルタスクの感情価値予測に特化しており、MSP-Podcastデータセットでトレーニングされています。

モデル特徴

高精度な感情価値予測

音声中の感情価値（valence）予測に特化しており、出力範囲は0から1です。

MSP-Podcastデータセットベース

音声感情認識研究専用のMSP-Podcastデータセットを使用してトレーニングされています。

コンペティションベースラインモデル

Odyssey 2024感情認識コンペティションのベースラインモデルとして、信頼性の高い性能基準を持っています。

モデル能力

音声感情認識

感情価値予測

オーディオ分類

使用事例

音声感情分析

音声中の感情価値を分析し、感情コンピューティングやヒューマンコンピュータインタラクションに活用します。

OdysseyコンペティションのTest3と開発セットでのCCC指標はそれぞれ0.607と0.709でした。

🚀 音声分類モデル

このモデルは、Odyssey 2024の感情認識コンペティションのベースラインとして、MSP-Podcast を使用して学習されました。この特定のモデルは、単一タスクの専用バレンスモデルで、バレンスを約0から1の範囲で予測します。

🚀 クイックスタート

このモデルは、音声分類タスクに特化しており、音声のバレンスを予測することができます。

📚 ドキュメント

ベンチマーク

OdysseyコンペティションのTest3と開発セットに基づくCCCです。

セット	バレンス (Test 3)	バレンス (Development)
単一タスクセットアップ	0.607	0.709

詳細については、デモ、論文、および GitHub を参照してください。

引用情報

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用例

基本的な使用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Valence", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std


#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)


#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'valence'}
#tensor([[0.3670]])