MetricGAN Plus Voicebank开源语音增强模型

首页

Metricgan Plus Voicebank

由 speechbrain 开发

这是一个使用MetricGAN+方法训练的语音增强模型，能够有效提升语音质量。

音频增强英语开源协议:Apache-2.0 #语音质量提升 #对抗生成网络 #低信噪比优化

下载量 55.91k

发布时间 : 3/2/2022

模型简介

该模型基于SpeechBrain框架开发，使用MetricGAN+方法在Voicebank和DEMAND数据集上训练，专门用于语音增强任务，能够显著提高语音的清晰度和可懂度。

模型特点

高质量语音增强

该模型能够显著提升语音质量，在测试集上PESQ达到3.15，STOI达到93.0。

基于MetricGAN+训练

使用改进的MetricGAN+方法训练，能够更好地优化语音质量评估指标。

易于使用

提供简单的API接口，只需几行代码即可实现语音增强功能。

模型能力

语音增强

噪声抑制

语音质量提升

使用案例

语音处理

语音通信质量增强

在嘈杂环境下提升语音通话的清晰度

PESQ提升至3.15，STOI达到93.0

语音识别预处理

作为语音识别系统的前端处理模块

提高后续语音识别准确率

🚀 语音增强的MetricGAN训练模型

本仓库提供了使用SpeechBrain进行语音增强所需的所有工具。为了获得更好的体验，我们建议您进一步了解 SpeechBrain。该模型的性能如下：

发布版本	测试PESQ	测试STOI
21-04-27	3.15	93.0

🚀 快速开始

本仓库提供了使用 SpeechBrain 进行语音增强所需的全部工具。为获得更佳体验，建议您深入了解 SpeechBrain。

✨ 主要特性

提供了使用 SpeechBrain 进行语音增强的工具。
展示了模型在测试集上的 PESQ 和 STOI 指标。

📦 安装指南

首先，请使用以下命令安装 SpeechBrain：

pip install speechbrain

请注意，我们建议您阅读我们的教程，进一步了解 SpeechBrain。

💻 使用示例

基础用法

要使用经过 mimic-loss 训练的模型进行语音增强，请使用以下简单代码：

import torch
import torchaudio
from speechbrain.inference.enhancement import SpectralMaskEnhancement

enhance_model = SpectralMaskEnhancement.from_hparams(
    source="speechbrain/metricgan-plus-voicebank",
    savedir="pretrained_models/metricgan-plus-voicebank",
)

# Load and add fake batch dimension
noisy = enhance_model.load_audio(
    "speechbrain/metricgan-plus-voicebank/example.wav"
).unsqueeze(0)

# Add relative length tensor
enhanced = enhance_model.enhance_batch(noisy, lengths=torch.tensor([1.]))

# Saving enhanced signal on disk
torchaudio.save('enhanced.wav', enhanced.cpu(), 16000)

该系统使用采样率为 16kHz（单声道）的录音进行训练。调用 enhance_file 时，代码会根据需要自动对音频进行归一化处理（即重采样 + 单声道选择）。如果使用 enhance_batch，请确保输入张量符合预期的采样率。

高级用法

在 GPU 上进行推理

要在 GPU 上进行推理，在调用 from_hparams 方法时添加 run_opts={"device":"cuda"}。

训练

该模型使用 SpeechBrain (d0accc8) 进行训练。要从头开始训练，请按照以下步骤操作：

克隆 SpeechBrain：

git clone https://github.com/speechbrain/speechbrain/

安装：

cd speechbrain
pip install -r requirements.txt
pip install -e .

运行训练：

cd  recipes/Voicebank/enhance/MetricGAN
python train.py hparams/train.yaml --data_folder=your_data_folder

您可以在这里找到我们的训练结果（模型、日志等）。

局限性

SpeechBrain 团队不对该模型在其他数据集上的性能提供任何保证。

📚 详细文档

引用 MetricGAN+

如果您觉得 MetricGAN+ 有用，请引用：

@article{fu2021metricgan+,
  title={MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement},
  author={Fu, Szu-Wei and Yu, Cheng and Hsieh, Tsun-An and Plantinga, Peter and Ravanelli, Mirco and Lu, Xugang and Tsao, Yu},
  journal={arXiv preprint arXiv:2104.03538},
  year={2021}
}

关于 SpeechBrain

网站：https://speechbrain.github.io/
代码：https://github.com/speechbrain/speechbrain/
HuggingFace：https://huggingface.co/speechbrain/

引用 SpeechBrain

如果您在研究或业务中使用了 SpeechBrain，请进行引用：

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}