🚀 SepFormer语音增强模型
本项目提供了使用基于SpeechBrain实现的SepFormer模型进行语音增强(去噪)的工具。该模型在16k采样频率的1300小时Microsoft-DNS 4数据集上进行训练。为了获得更好的体验,建议你进一步了解SpeechBrain。
🚀 快速开始
本仓库提供了使用基于SpeechBrain实现的SepFormer模型进行语音增强(去噪)所需的所有工具。该模型在16k采样频率的1300小时Microsoft - DNS 4数据集上进行训练。为了获得更好的体验,我们建议你进一步了解SpeechBrain。在DNS4 2022基线开发集上使用DNSMOS进行的评估结果如下:
版本 |
SIG |
BAK |
OVRL |
08 - 01 - 23 |
2.999 |
3.076 |
2.437 |
DNSMOS(深度噪声抑制平均意见得分)是一种非侵入式评估指标,它计算三个得分:SIG(语音质量)、BAK(背景噪声质量)和OVRL(整体质量),得分范围为1到5,5表示最佳质量。
✨ 主要特性
- 支持多种语言,包括英语、德语、俄语、法语、意大利语和西班牙语。
- 适用于音频到音频的语音增强任务。
- 基于SepFormer模型,在Microsoft DNS - 4数据集上训练。
- 使用SpeechBrain框架实现,便于使用和扩展。
📦 安装指南
首先,请使用以下命令安装SpeechBrain:
pip install speechbrain
💻 使用示例
基础用法
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav')
torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)
高级用法
若要在GPU上进行推理,请在调用from_hparams
方法时添加 run_opts={"device":"cuda"}
。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
SepFormer |
训练数据 |
Microsoft - DNS 4数据集(16k采样频率,1300小时) |
评估指标 |
SI - SNR、PESQ、SIG、BAK、OVRL |
评估结果
模型在DNS4 2022基线开发集上的评估结果如下:
任务 |
数据集 |
语言 |
SIG |
BAK |
OVRL |
语音增强 |
DNS - 4 |
德语 |
2.999 |
3.076 |
2.437 |
引用信息
引用SpeechBrain
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
引用SepFormer
@inproceedings{subakan2021attention,
title={Attention is All You Need in Speech Separation},
author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
year={2021},
booktitle={ICASSP 2021}
}
引用ICASSP 2022深度噪声抑制挑战
@inproceedings{dubey2022icassp,
title={ICASSP 2022 Deep Noise Suppression Challenge},
author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
booktitle={ICASSP},
year={2022}
}
🔧 技术细节
本模型基于SepFormer架构,使用SpeechBrain框架实现。SepFormer是一种用于语音分离的模型,通过注意力机制实现了高效的语音增强。模型在16k采样频率的Microsoft - DNS 4数据集上进行训练,该数据集包含了丰富的语音和噪声数据,有助于模型学习到更好的语音特征。
📄 许可证
本项目采用Apache 2.0许可证。
⚠️ 重要提示
SpeechBrain团队不对该模型在其他数据集上的性能提供任何保证。
关于SpeechBrain
- 官网:https://speechbrain.github.io/
- 代码仓库:https://github.com/speechbrain/speechbrain/
- HuggingFace页面:https://huggingface.co/speechbrain/