🚀 UrbanSoudnd8kでECAPA埋め込みを用いた音声認識
このリポジトリは、UrbanSound8kで事前学習されたモデルを使用して、SpeechBrainで音声認識を行うために必要なすべてのツールを提供します。
データセットはこちらからダウンロードできます。
提供されるシステムは、以下の10個のキーワードを認識することができます。
dog_bark, children_playing, air_conditioner, street_music, gun_shot, siren, engine_idling, jackhammer, drilling, car_horn
より良い体験を得るために、SpeechBrainについてもっと学ぶことをお勧めします。与えられたモデルのテストセットでの性能は以下の通りです。
リリース |
1-foldの正解率 (%) |
04-06-21 |
75.5 |
🚀 クイックスタート
パイプラインの説明
このシステムは、統計的プーリングと組み合わされたECAPAモデルで構成されています。その上に、カテゴリクロスエントロピー損失で学習された分類器が適用されます。
SpeechBrainのインストール
まず、以下のコマンドでSpeechBrainをインストールしてください。
pip install speechbrain
当社のチュートリアルを読み、SpeechBrainについてもっと学ぶことをお勧めします。
音声認識の実行
import torchaudio
from speechbrain.inference.classifiers import EncoderClassifier
classifier = EncoderClassifier.from_hparams(source="speechbrain/urbansound8k_ecapa", savedir="pretrained_models/gurbansound8k_ecapa")
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')
print(text_lab)
システムは16kHz(単一チャンネル)でサンプリングされた録音で学習されています。
コードは、必要に応じて classify_file を呼び出すときに自動的にオーディオを正規化します(すなわち、リサンプリング + モノチャンネル選択)。encode_batch や classify_batch を使用する場合は、入力テンソルが期待されるサンプリングレートに準拠していることを確認してください。
GPUでの推論
GPUで推論を行うには、from_hparams
メソッドを呼び出すときに run_opts={"device":"cuda"}
を追加してください。
学習
このモデルはSpeechBrain (8cab8b0c) で学習されました。
最初から学習するには、以下の手順に従ってください。
- SpeechBrainをクローンします。
git clone https://github.com/speechbrain/speechbrain/
- インストールします。
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 学習を実行します。
cd recipes/UrbanSound8k/SoundClassification
python train.py hparams/train_ecapa_tdnn.yaml --data_folder=your_data_folder
学習結果(モデル、ログなど)はこちらで見ることができます。
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合の性能について、何ら保証を提供するものではありません。
引用
ECAPAの引用
author = {Brecht Desplanques and
Jenthe Thienpondt and
Kris Demuynck},
editor = {Helen Meng and
Bo Xu and
Thomas Fang Zheng},
title = {{ECAPA-TDNN:} Emphasized Channel Attention, Propagation and Aggregation
in {TDNN} Based Speaker Verification},
booktitle = {Interspeech 2020},
pages = {3830--3834},
publisher = {{ISCA}},
year = {2020},
}
UrbanSoundの引用
Author = {Salamon, J. and Jacoby, C. and Bello, J. P.},
Booktitle = {22nd {ACM} International Conference on Multimedia (ACM-MM'14)},
Month = {Nov.},
Pages = {1041--1044},
Title = {A Dataset and Taxonomy for Urban Sound Research},
Year = {2014}}
SpeechBrainの引用
研究やビジネスでSpeechBrainを使用する場合は、必ず引用してください。
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}