🚀 在WSJ0 - 2Mix上訓練的RE - SepFormer
本倉庫提供了使用基於 RE - SepFormer 模型進行音頻源分離所需的所有工具。該模型使用SpeechBrain實現,並在WSJ0 - 2Mix數據集上進行了預訓練。為了獲得更好的體驗,我們建議您進一步瞭解 SpeechBrain。該模型在WSJ0 - 2Mix數據集測試集上的性能為18.6 dB。
版本發佈日期 |
測試集SI - SNRi |
測試集SDRi |
22年6月19日 |
18.6dB |
18.9dB |
🚀 快速開始
本倉庫提供了使用 RE - SepFormer 模型進行音頻源分離的工具,該模型使用SpeechBrain實現,並在WSJ0 - 2Mix數據集上預訓練。建議您瞭解更多關於 SpeechBrain 的信息。模型在WSJ0 - 2Mix數據集測試集上的性能為18.6 dB。
✨ 主要特性
- 提供基於RE - SepFormer模型的音頻源分離工具。
- 模型使用SpeechBrain實現並在WSJ0 - 2Mix數據集上預訓練。
- 給出了模型在測試集上的性能指標(SI - SNRi和SDRi)。
📦 安裝指南
安裝SpeechBrain
首先,請使用以下命令安裝SpeechBrain:
pip install speechbrain
請注意,我們建議您閱讀我們的教程,進一步瞭解 SpeechBrain。
💻 使用示例
基礎用法
在您自己的音頻文件上進行源分離:
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/resepformer-wsj02mix", savedir='pretrained_models/resepformer-wsj02mix')
est_sources = model.separate_file(path='speechbrain/sepformer-wsj02mix/test_mixture.wav')
torchaudio.save("source1hat.wav", est_sources[:, :, 0].detach().cpu(), 8000)
torchaudio.save("source2hat.wav", est_sources[:, :, 1].detach().cpu(), 8000)
系統期望輸入的錄音採樣率為8kHz(單聲道)。如果您的信號採樣率不同,請在使用該接口之前對其進行重採樣(例如,使用torchaudio或sox)。
高級用法
在GPU上進行推理
要在GPU上進行推理,請在調用 from_hparams
方法時添加 run_opts={"device":"cuda"}
。
📚 詳細文檔
訓練
該模型使用SpeechBrain(fc2eabb7)進行訓練。要從頭開始訓練,請按照以下步驟操作:
- 克隆SpeechBrain:
git clone https://github.com/speechbrain/speechbrain/
- 安裝它:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 運行訓練:
cd recipes/WSJ0Mix/separation
python train.py hparams/sepformer.yaml --data_folder=your_data_folder
您可以在 這裡 找到我們的訓練結果(模型、日誌等)。
侷限性
SpeechBrain團隊不保證該模型在其他數據集上的性能。
📄 許可證
本項目採用Apache - 2.0許可證。
🔖 引用信息
引用SpeechBrain
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
引用RE - SepFormer
@inproceedings{dellalibera2024resourceefficient,
title={Resource-Efficient Separation Transformer},
author={Luca Della Libera and Cem Subakan and Mirco Ravanelli and Samuele Cornell and Frédéric Lepoutre and François Grondin},
year={2024},
booktitle={ICASSP 2024},
}
🔗 關於SpeechBrain
- 網站:https://speechbrain.github.io/
- 代碼:https://github.com/speechbrain/speechbrain/
- HuggingFace:https://huggingface.co/speechbrain/