🚀 WHAMR!データセットで学習したSepFormer音声強化モデル(8kサンプリングレート)
このリポジトリは、SepFormerモデルを使用して音声強化(ノイズ除去 + 残響除去)を行うために必要なすべてのツールを提供しています。このモデルはSpeechBrainを使用して実装され、WHAMR! 8kサンプリングレートのデータセットで事前学習されています。WHAMR!データセットは、本質的にWSJ0 - Mixデータセットのバージョンで、8kサンプリングレートで環境ノイズと残響が追加されています。より良い体験を得るために、SpeechBrainについてさらに調べることをおすすめします。このモデルのWHAMR!データセットのテストセットでのSI - SNRは10.59 dBです。
🚀 クイックスタート
このリポジトリは、SepFormerモデルを使用して音声強化(ノイズ除去 + 残響除去)を行うために必要なすべてのツールを提供しています。このモデルはSpeechBrainを使用して実装され、WHAMR! 8kサンプリングレートのデータセットで事前学習されています。WHAMR!データセットは、本質的にWSJ0 - Mixデータセットのバージョンで、8kサンプリングレートで環境ノイズと残響が追加されています。より良い体験を得るために、SpeechBrainについてさらに調べることをおすすめします。このモデルのWHAMR!データセットのテストセットでのSI - SNRは10.59 dBです。
バージョンリリース日 |
テストセットSI - SNR |
テストセットPESQ |
2021年12月1日 |
10.59 |
2.84 |
✨ 主な機能
- SepFormerモデルに基づく音声強化機能を提供し、ノイズ除去と残響除去を含みます。
- モデルはWHAMR! 8kサンプリングレートのデータセットで事前学習されており、一定の汎化能力を持っています。
- カスタムオーディオファイルでの音声強化操作をサポートしています。
📦 インストール
まず、以下のコマンドを使用してSpeechBrainをインストールしてください。
pip install speechbrain
なお、SpeechBrainについてさらに詳しく知るために、チュートリアルを読むことをおすすめします。
💻 使用例
基本的な使用法
独自のオーディオファイルで音声強化を実行するには、次のコードを使用します。
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/sepformer-whamr-enhancement", savedir='pretrained_models/sepformer-whamr-enhancement')
est_sources = model.separate_file(path='speechbrain/sepformer-whamr-enhancement/example_whamr.wav')
torchaudio.save("enhanced_whamr.wav", est_sources[:, :, 0].detach().cpu(), 8000)
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加します。
📚 ドキュメント
学習
学習スクリプトは現在、進行中のプルリクエストで開発されています。
プルリクエストがマージされたら、モデルカードを更新します。
学習結果(モデル、ログなど)はこちらで見ることができます。
制限事項
SpeechBrainチームは、このモデルが他のデータセットでの性能を保証するものではありません。
引用
SpeechBrainの引用
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
SepFormerの引用
@inproceedings{subakan2021attention,
title={Attention is All You Need in Speech Separation},
author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
year={2021},
booktitle={ICASSP 2021}
}
📄 ライセンス
このプロジェクトはApache - 2.0ライセンスの下で提供されています。
🔗 SpeechBrainについて
- 公式サイト:https://speechbrain.github.io/
- コードリポジトリ:https://github.com/speechbrain/speechbrain/
- HuggingFace:https://huggingface.co/speechbrain/