🚀 音声録音からのアクセント識別(CommonAccent上のECAPA - TDNN埋め込みを使用)
このプロジェクトは、SpeechBrainを用いて音声録音からアクセント識別を行うための必要なツールを提供します。システムは、英語のCommonAccentデータセット(16種類のアクセント)で事前学習されたモデルを使用しています。
🚀 クイックスタート
このリポジトリは、音声録音からのアクセント識別を行うためのすべての必要なツールを提供しています。以下の手順に従って、アクセント識別を行うことができます。
✨ 主な機能
- 英語の音声録音から16種類のアクセントを識別することができます。
- 事前学習されたECAPA - TDNNモデルを使用しています。
- データ拡張を用いた微調整により、高精度なアクセント識別が可能です。
📦 インストール
まず、以下のコマンドを使用してSpeechBrainをインストールしてください。
pip install speechbrain
💻 使用例
基本的な使用法
import torchaudio
from speechbrain.pretrained import EncoderClassifier
classifier = EncoderClassifier.from_hparams(source="Jzuluaga/accent-id-commonaccent_ecapa", savedir="pretrained_models/accent-id-commonaccent_ecapa")
out_prob, score, index, text_lab = classifier.classify_file('Jzuluaga/accent-id-commonaccent_ecapa/data/ireland_1.wav')
print(text_lab)
out_prob, score, index, text_lab = classifier.classify_file('Jzuluaga/accent-id-commonaccent_ecapa/data/malaysia_1.wav')
print(text_lab)
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加してください。
📚 ドキュメント
パイプラインの説明
このシステムは、統計的プーリングと組み合わされたECAPAモデルで構成されています。その上に、カテゴリカル交差エントロピー損失で訓練された分類器が適用されます。
システムは、16kHzでサンプリングされた録音(単一チャンネル)で訓練されています。コードは、必要に応じてclassify_file
を呼び出す際に自動的にオーディオを正規化します(リサンプリング + モノチャンネル選択)。encode_batch
やclassify_batch
を使用する場合は、入力テンソルが予期されるサンプリングレートに準拠していることを確認してください。
訓練
このモデルはSpeechBrainを使用して訓練されています。ゼロから訓練するには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 私たちのリポジトリをクローンします。
git clone https://github.com/JuanPZuluaga/accent-recog-slt2022
cd CommonAccent/accent_id
python train.py hparams/train_ecapa_tdnn.yaml
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて一切保証しません。
🔧 技術詳細
本研究では、強調チャネルアテンション、伝播、および集約時間遅延ニューラルネットワーク(ECAPA - TDNN)アーキテクチャを通じて、アクセント付き英語音声の分類に取り組みました。3つのモデルが提案されています。1つはゼロから訓練されたモデルで、他の2つのモデル(データ拡張を使用したモデルとベースラインモデル)は、speechbrain/spkrec - ecapa - voxceleb(VoxCeleb)のチェックポイントから微調整されています。結果は、データ拡張を使用して微調整されたモデルが最良の結果をもたらすことを示しています。誤分類の多くは、アメリカ英語とカナダ英語のようなアクセントの類似性により、構造化されて予想されるものでした。また、次元削減手法であるt - SNEを通じて埋め込みの内部分類を調査し、音韻的な類似性に基づくクラスタリングがあることを発見しました。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
引用
本研究の引用
@article{zuluaga2023commonaccent,
title={CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice},
author={Zuluaga-Gomez, Juan and Ahmed, Sara and Visockas, Danielius and Subakan, Cem},
journal={Interspeech 2023},
url={https://arxiv.org/abs/2305.18283},
year={2023}
}
ECAPA - TDNNモデルの引用
author = {Brecht Desplanques and
Jenthe Thienpondt and
Kris Demuynck},
editor = {Helen Meng and
Bo Xu and
Thomas Fang Zheng},
title = {{ECAPA-TDNN:} Emphasized Channel Attention, Propagation and Aggregation
in {TDNN} Based Speaker Verification},
booktitle = {Interspeech 2020},
pages = {3830--3834},
publisher = {{ISCA}},
year = {2020},
}
SpeechBrainの引用
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
モデルの性能
与えられたモデルのテストセットでの性能は以下の通りです。
リリース日 (dd/mm/yyyy) |
精度 (%) |
01 - 08 - 2023 (このモデル) |
87 |
01 - 08 - 2023 (データ拡張なしで訓練されたこのモデル) |
85 |
01 - 08 - 2023 (ゼロから訓練されたこのモデル、パラメータ転送なし) |
82 |
このシステムは、以下の16種類の英語(EN)の短い音声録音からアクセントを認識することができます。
african
australia
bermuda
canada
england
hongkong
indian
ireland
malaysia
newzealand
philippines
scotland
singapore
southatlandtic
us
wales
Githubリポジトリのリンク: https://github.com/JuanPZuluaga/accent-recog-slt2022
より良い体験のために、SpeechBrainについてもっと学ぶことをお勧めします。