🚀 语音增强的MetricGAN训练模型
本仓库提供了使用SpeechBrain进行语音增强所需的所有工具。为了获得更好的体验,我们建议您进一步了解 SpeechBrain。该模型的性能如下:
发布版本 |
测试PESQ |
测试STOI |
21-04-27 |
3.15 |
93.0 |
🚀 快速开始
本仓库提供了使用 SpeechBrain 进行语音增强所需的全部工具。为获得更佳体验,建议您深入了解 SpeechBrain。
✨ 主要特性
- 提供了使用 SpeechBrain 进行语音增强的工具。
- 展示了模型在测试集上的 PESQ 和 STOI 指标。
📦 安装指南
首先,请使用以下命令安装 SpeechBrain:
pip install speechbrain
请注意,我们建议您阅读我们的教程,进一步了解 SpeechBrain。
💻 使用示例
基础用法
要使用经过 mimic-loss 训练的模型进行语音增强,请使用以下简单代码:
import torch
import torchaudio
from speechbrain.inference.enhancement import SpectralMaskEnhancement
enhance_model = SpectralMaskEnhancement.from_hparams(
source="speechbrain/metricgan-plus-voicebank",
savedir="pretrained_models/metricgan-plus-voicebank",
)
noisy = enhance_model.load_audio(
"speechbrain/metricgan-plus-voicebank/example.wav"
).unsqueeze(0)
enhanced = enhance_model.enhance_batch(noisy, lengths=torch.tensor([1.]))
torchaudio.save('enhanced.wav', enhanced.cpu(), 16000)
该系统使用采样率为 16kHz(单声道)的录音进行训练。调用 enhance_file 时,代码会根据需要自动对音频进行归一化处理(即重采样 + 单声道选择)。如果使用 enhance_batch,请确保输入张量符合预期的采样率。
高级用法
在 GPU 上进行推理
要在 GPU 上进行推理,在调用 from_hparams
方法时添加 run_opts={"device":"cuda"}
。
训练
该模型使用 SpeechBrain (d0accc8) 进行训练。要从头开始训练,请按照以下步骤操作:
- 克隆 SpeechBrain:
git clone https://github.com/speechbrain/speechbrain/
- 安装:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 运行训练:
cd recipes/Voicebank/enhance/MetricGAN
python train.py hparams/train.yaml --data_folder=your_data_folder
您可以在 这里 找到我们的训练结果(模型、日志等)。
局限性
SpeechBrain 团队不对该模型在其他数据集上的性能提供任何保证。
📚 详细文档
引用 MetricGAN+
如果您觉得 MetricGAN+ 有用,请引用:
@article{fu2021metricgan+,
title={MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement},
author={Fu, Szu-Wei and Yu, Cheng and Hsieh, Tsun-An and Plantinga, Peter and Ravanelli, Mirco and Lu, Xugang and Tsao, Yu},
journal={arXiv preprint arXiv:2104.03538},
year={2021}
}
关于 SpeechBrain
- 网站:https://speechbrain.github.io/
- 代码:https://github.com/speechbrain/speechbrain/
- HuggingFace:https://huggingface.co/speechbrain/
引用 SpeechBrain
如果您在研究或业务中使用了 SpeechBrain,请进行引用:
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
📄 许可证
本项目采用 Apache-2.0 许可证。