SER-wav2vec2音声感情識別モデルがオープンソース化 - 中英両言語対応、高齢者用音声に特化した最適化

ホーム

SER Wav2vec2 Large Xlsr 53 Eng Zho All Age

CAiREによって開発

wav2vec2-large-xlsr-53をファインチューニングした音声感情認識モデルで、英語と中国語をサポートし、特に高齢者音声に最適化されています

音声分類

Transformers

複数言語対応#多言語感情認識 #高齢者音声適応 #低リソース最適化

ダウンロード数 243

リリース時間 : 6/27/2023

モデル概要

このモデルは、多言語・多年代に対応した音声感情認識モデルで、低リソースの高齢者音声シナリオに特化して最適化されています。facebookのwav2vec2-large-xlsr-53アーキテクチャをベースにファインチューニングされており、英語と中国語の音声感情認識をサポートします。

モデル特徴

多言語サポート

英語と中国語の音声感情認識を同時にサポート

高齢者音声最適化

高齢者音声の特徴に特化して最適化され、認識精度を向上

多年代適応

訓練データには全年齢層の話者が含まれており、モデルは幅広い適応性を有する

モデル能力

音声感情認識

多言語処理

高齢者音声分析

使用事例

ヘルスケア

高齢者の感情モニタリング

音声分析を通じて高齢者の感情状態をモニタリング

介護者が感情の異常を早期に発見するのに役立つ

ヒューマン・コンピュータ・インタラクション

高齢者向け音声アシスタント

高齢者により正確な感情認識インタラクション体験を提供

高齢者のスマートデバイス使用の利便性を向上

🚀 低リソース高齢者音声感情認識のためのクロス言語・クロス年齢層適応

全年代の話者の英語と中国語のデータで、facebook/wav2vec2-large-xlsr-53 をファインチューニングしました。このモデルは、CREMA-D、CSED、ElderReact、ESD、IEMOCAP、TESS のトレーニングセットを用いてトレーニングされています。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

トレーニングと評価に使用されたスクリプトはこちらにあります： https://github.com/HLTCHKUST/elderly_ser/tree/main

📚 評価結果

詳細（例えば、train、valid、test データの統計情報）については、arXiv の論文を参照してください。この論文では、英語-全年代、中国語-全年代、英語-高齢者、中国語-高齢者、英語-成人、中国語-成人におけるモデルの音声感情認識性能も提供されています。

📄 ライセンス

このプロジェクトは CC BY-SA 4.0 ライセンスの下で公開されています。

📚 引用

当社の論文は INTERSPEECH 2023 で公開されます。それまでの間、arXiv で論文を見ることができます。当社の研究が役に立った場合は、以下のように論文を引用していただけると幸いです。

@misc{cahyawijaya2023crosslingual,
      title={Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition}, 
      author={Samuel Cahyawijaya and Holy Lovenia and Willy Chung and Rita Frieske and Zihan Liu and Pascale Fung},
      year={2023},
      eprint={2306.14517},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

プロパティ	詳細
モデルタイプ	音声分類
トレーニングデータ	Ar4ikov/iemocap_audio_text_splitted
評価指標	f1
ライブラリ名	transformers
パイプラインタグ	音声分類
タグ	音声感情認識