🚀 SepFormerによる音声強化モデル (16kサンプリング周波数)
このリポジトリは、SepFormerモデルを用いて音声強化(ノイズ除去)を行うための必要なツールを提供しています。このモデルはSpeechBrainを用いて実装され、16kサンプリング周波数のMicrosoft-DNS 4データセットの1300時間のデータで学習されています。より良い体験のために、SpeechBrainについてもっと学ぶことをおすすめします。DNS4 2022のベースライン開発セットでのDNSMOSを用いた評価結果は以下の通りです。
言語サポート
- 英語 (en)
- ドイツ語 (de)
- ロシア語 (ru)
- フランス語 (fr)
- イタリア語 (it)
- スペイン語 (es)
タグ
- audio-to-audio
- 音声強化 (Speech Enhancement)
- DNS-4
- SepFormer
- Transformer
- pytorch
- speechbrain
- Microsoft DNS Challenge
- Deep Noise Suppression Challenge – ICASSP 2022
ライセンス
データセット
評価指標
モデル情報
プロパティ |
詳細 |
モデル名 |
sepformer-dns4-16k-enhancement |
タスク |
音声強化 (Speech Enhancement) |
データセット |
DNS-4 (Deep Noise Suppression Challenge 4 – ICASSP 2022) |
分割データセット |
baseline-dev-set (ドイツ語) |
SIG (DNSMOS) |
2.999 |
BAK (DNSMOS) |
3.076 |
OVRL (DNSMOS) |
2.437 |
🚀 クイックスタート
このリポジトリでは、SpeechBrainを用いて実装されたSepFormerモデルを使って音声強化(ノイズ除去)を行うためのツールを提供しています。モデルは、16kサンプリング周波数のMicrosoft-DNS 4データセットの1300時間のデータで学習されています。
✨ 主な機能
- SpeechBrainを用いたSepFormerモデルによる音声強化
- 16kサンプリング周波数のMicrosoft-DNS 4データセットで学習
- DNSMOSを用いた評価
📦 インストール
まずは、以下のコマンドでSpeechBrainをインストールしてください。
pip install speechbrain
より良い体験のために、SpeechBrainについてもっと学ぶことをおすすめします。
💻 使用例
基本的な使用法
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav')
torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)
高度な使用法
GPUで推論を行うには、from_hparams
メソッドを呼び出す際にrun_opts={"device":"cuda"}
を追加してください。
学習結果(モデル、ログなど)はこちらから確認できます。
📚 ドキュメント
制限事項
SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。
引用情報
SpeechBrainの引用
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
SepFormerの引用
@inproceedings{subakan2021attention,
title={Attention is All You Need in Speech Separation},
author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
year={2021},
booktitle={ICASSP 2021}
}
ICASSP 2022 Deep Noise Suppression Challengeの引用
@inproceedings{dubey2022icassp,
title={ICASSP 2022 Deep Noise Suppression Challenge},
author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
booktitle={ICASSP},
year={2022}
}
SpeechBrainについて
- ウェブサイト: https://speechbrain.github.io/
- コード: https://github.com/speechbrain/speechbrain/
- HuggingFace: https://huggingface.co/speechbrain/
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。