SER-wav2vec2オープンソース音声感情認識モデル - 中国語と英語の両言語に対応し、異なる年齢層の認識をサポート

ホーム

SER Wav2vec2 Large Xlsr 53 Eng Zho Adults

CAiREによって開発

wav2vec2-large-xlsr-53をファインチューニングした多言語・多年代音声感情認識モデルで、英語と中国語をサポート

音声分類

Transformers

複数言語対応#多言語感情認識 #高齢者音声適応 #低リソース最適化

ダウンロード数 32

リリース時間 : 6/27/2023

モデル概要

このモデルは高齢者音声感情認識タスク向けに最適化されており、低リソース環境下で多言語・多年代の適応的認識を実現可能

モデル特徴

多言語サポート

英語と中国語の音声感情認識を同時にサポート

高齢者音声最適化

特に高齢者音声特性に合わせて最適化・適応

低リソース適応

データリソースが限られた状況でも良好な認識性能を維持可能

複数データセット学習

CREMA-D、ESD、IEMOCAP、TESSなど複数の音声データセットで学習

モデル能力

音声感情分類

多言語認識

高齢者音声認識

使用事例

ヘルスケア

高齢者感情モニタリング

音声分析を通じて高齢者の感情状態を監視

うつ病などの感情問題の早期発見に活用可能

ヒューマンコンピュータインタラクション

高齢者向け音声アシスタント

高齢者により正確な感情感知インタラクション体験を提供

高齢者のスマートデバイス使用親和性向上

🚀 低リソース高齢者音声感情認識のためのクロス言語・クロス年齢層適応

このモデルは、成人話者の英語と中国語のデータでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたものです。訓練には、CREMA-D、ESD、IEMOCAP、TESSのトレーニングセットを使用しています。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

訓練と評価に使用されたスクリプトはこちらにあります: https://github.com/HLTCHKUST/elderly_ser/tree/main

📚 ドキュメント

評価結果

詳細（例えば、train、valid、testデータの統計情報）については、arXivに掲載されている当社の論文を参照してください。この論文では、英語全体、中国語全体、英語高齢者、中国語高齢者、英語成人、中国語成人に対するモデルの音声感情認識性能も提供されています。

引用

当社の論文はINTERSPEECH 2023で公開されます。それまでの間、arXivで論文を見ることができます。当社の研究が役に立った場合は、以下のように論文を引用していただけると幸いです。

@misc{cahyawijaya2023crosslingual,
      title={Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition}, 
      author={Samuel Cahyawijaya and Holy Lovenia and Willy Chung and Rita Frieske and Zihan Liu and Pascale Fung},
      year={2023},
      eprint={2306.14517},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

このプロジェクトはCC BY-SA 4.0ライセンスの下で公開されています。

その他の情報

プロパティ	詳細
データセット	Ar4ikov/iemocap_audio_text_splitted
言語	英語、中国語
評価指標	F1
ライブラリ名	transformers
パイプラインタグ	音声分類
タグ	音声感情認識