🚀 SepFormerをWHAM!データセットで学習した音声強調モデル (16kサンプリング周波数)
このリポジトリでは、SpeechBrainを用いて実装され、WHAM!データセット(16kサンプリング周波数)で事前学習されたSepFormerモデルを使って音声強調(ノイズ除去)を行うために必要なツールを提供しています。WHAM!データセットは、基本的には8kのWSJ0 - Mixデータセットに環境ノイズと残響を加えたものです。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。このモデルは、WHAM!データセットのテストセットで14.3 dB SI - SNRの性能を発揮します。
リリース日 |
テストセットのSI - SNR |
テストセットのPESQ |
06 - 30 - 22 |
13.8 |
2.20 |
🚀 クイックスタート
📦 インストール
まずは、以下のコマンドでSpeechBrainをインストールしてください。
pip install speechbrain
当社のチュートリアルを読み、SpeechBrainについてもっと学ぶことをおすすめします。
💻 使用例
基本的な使用法
自分のオーディオファイルで音声強調を行うには、以下のコードを実行します。
from speechbrain.pretrained import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/sepformer-wham16k-enhancement", savedir='pretrained_models/sepformer-wham16k-enhancement')
est_sources = model.separate_file(path='speechbrain/sepformer-wham16k-enhancement/example_wham16k.wav')
torchaudio.save("enhanced_wham16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加します。
🔧 技術詳細
学習スクリプトは現在、進行中のプルリクエストで作業されています。PRがマージされ次第、モデルカードを更新します。学習結果(モデル、ログなど)は[こちら](https://drive.google.com/drive/folders/1bbQvaiN - R79M697NnekA7Rr0jIYtO6e3)で確認できます。
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。
文献引用
SpeechBrainの引用
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
SepFormerの引用
@inproceedings{subakan2021attention,
title={Attention is All You Need in Speech Separation},
author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
year={2021},
booktitle={ICASSP 2021}
}
@article{subakan2023exploring,
author={Subakan, Cem and Ravanelli, Mirco and Cornell, Samuele and Grondin, François and Bronzi, Mirko},
journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
title={Exploring Self-Attention Mechanisms for Speech Separation},
year={2023},
volume={31},
pages={2169-2180},
}
SpeechBrainについて
- ウェブサイト: https://speechbrain.github.io/
- コード: https://github.com/speechbrain/speechbrain/
- HuggingFace: https://huggingface.co/speechbrain/