🚀 SepFormer語音增強模型
本項目提供了使用基於SpeechBrain實現的SepFormer模型進行語音增強(去噪)的工具。該模型在16k採樣頻率的1300小時Microsoft-DNS 4數據集上進行訓練。為了獲得更好的體驗,建議你進一步瞭解SpeechBrain。
🚀 快速開始
本倉庫提供了使用基於SpeechBrain實現的SepFormer模型進行語音增強(去噪)所需的所有工具。該模型在16k採樣頻率的1300小時Microsoft - DNS 4數據集上進行訓練。為了獲得更好的體驗,我們建議你進一步瞭解SpeechBrain。在DNS4 2022基線開發集上使用DNSMOS進行的評估結果如下:
版本 |
SIG |
BAK |
OVRL |
08 - 01 - 23 |
2.999 |
3.076 |
2.437 |
DNSMOS(深度噪聲抑制平均意見得分)是一種非侵入式評估指標,它計算三個得分:SIG(語音質量)、BAK(背景噪聲質量)和OVRL(整體質量),得分範圍為1到5,5表示最佳質量。
✨ 主要特性
- 支持多種語言,包括英語、德語、俄語、法語、意大利語和西班牙語。
- 適用於音頻到音頻的語音增強任務。
- 基於SepFormer模型,在Microsoft DNS - 4數據集上訓練。
- 使用SpeechBrain框架實現,便於使用和擴展。
📦 安裝指南
首先,請使用以下命令安裝SpeechBrain:
pip install speechbrain
💻 使用示例
基礎用法
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav')
torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)
高級用法
若要在GPU上進行推理,請在調用from_hparams
方法時添加 run_opts={"device":"cuda"}
。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
SepFormer |
訓練數據 |
Microsoft - DNS 4數據集(16k採樣頻率,1300小時) |
評估指標 |
SI - SNR、PESQ、SIG、BAK、OVRL |
評估結果
模型在DNS4 2022基線開發集上的評估結果如下:
任務 |
數據集 |
語言 |
SIG |
BAK |
OVRL |
語音增強 |
DNS - 4 |
德語 |
2.999 |
3.076 |
2.437 |
引用信息
引用SpeechBrain
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
引用SepFormer
@inproceedings{subakan2021attention,
title={Attention is All You Need in Speech Separation},
author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
year={2021},
booktitle={ICASSP 2021}
}
引用ICASSP 2022深度噪聲抑制挑戰
@inproceedings{dubey2022icassp,
title={ICASSP 2022 Deep Noise Suppression Challenge},
author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
booktitle={ICASSP},
year={2022}
}
🔧 技術細節
本模型基於SepFormer架構,使用SpeechBrain框架實現。SepFormer是一種用於語音分離的模型,通過注意力機制實現了高效的語音增強。模型在16k採樣頻率的Microsoft - DNS 4數據集上進行訓練,該數據集包含了豐富的語音和噪聲數據,有助於模型學習到更好的語音特徵。
📄 許可證
本項目採用Apache 2.0許可證。
⚠️ 重要提示
SpeechBrain團隊不對該模型在其他數據集上的性能提供任何保證。
關於SpeechBrain
- 官網:https://speechbrain.github.io/
- 代碼倉庫:https://github.com/speechbrain/speechbrain/
- HuggingFace頁面:https://huggingface.co/speechbrain/