SER-Odyssey-Baseline-WavLM-Categoricalオープンソースモデル - 8つの基本的な音声感情カテゴリを無料で予測

ホーム

SER Odyssey Baseline WavLM Categorical

3loiによって開発

WavLMアーキテクチャに基づく音声感情認識のベースラインモデル、8つの基本感情カテゴリを予測

音声分類

Transformers

英語オープンソースライセンス:MIT #音声感情認識 #WavLMアーキテクチャ #多感情分類

ダウンロード数 581

リリース時間 : 3/7/2024

モデル概要

このモデルはMSP-Podcastデータセットで訓練された音声感情認識分類モデルで、Odyssey 2024感情認識コンペティションのベースラインモデルとして、怒り、悲しみ、喜びなどの8つの感情カテゴリを予測できます。

モデル特徴

多感情分類

8つの基本感情カテゴリを識別可能：怒り、悲しみ、喜び、驚き、恐怖、嫌悪、軽蔑、中性

標準化音声処理

平均/標準偏差正規化前処理をサポートし、モデルの認識精度を向上

コンペティションベースラインモデル

Odyssey 2024感情認識コンペティションの公式ベースラインモデルとして、参考価値がある

モデル能力

音声感情認識

音声分類

多クラス感情分析

使用事例

人間とコンピュータの相互作用

音声アシスタントの感情応答

ユーザーの音声感情を認識してインタラクション戦略を調整

人間とコンピュータの相互作用の自然さとユーザー体験を向上

メンタルヘルス

感情状態モニタリング

音声記録中の感情変化を分析

メンタルヘルス評価と介入を支援

🚀 音声分類モデル

このモデルは、Odyssey 2024の感情認識コンペティションのベースラインとして、MSP-Podcast を使用して学習されました。この特定のモデルは、カテゴリベースのモデルで、「怒り」、「悲しみ」、「喜び」、「驚き」、「恐怖」、「嫌悪」、「軽蔑」、「中立」を予測します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 ドキュメント

ベンチマーク

OdysseyコンペティションのTest3と開発セットに基づくF1スコアです。

セット	F1-Mic.	F1-Ma.	Prec.	Rec.
Test 3	0.327	0.311	0.332	0.325
開発	0.409	0.307	0.316	0.345

詳細については、デモ、論文、および GitHub を参照してください。

引用

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用例

基本的な使用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Categorical-Attributes", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std


#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)


#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label)  
print(pred)
#{0: 'Angry', 1: 'Sad', 2: 'Happy', 3: 'Surprise', 4: 'Fear', 5: 'Disgust', 6: 'Contempt', 7: 'Neutral'}
#tensor([[0.0015, 0.3651, 0.0593, 0.0315, 0.0600, 0.0125, 0.0319, 0.4382]])

#convert logits to probability
probabilities = torch.nn.functional.softmax(pred, dim=1)
print(probabilities)
#[[0.0015, 0.3651, 0.0593, 0.0315, 0.0600, 0.0125, 0.0319, 0.4382]]