sepformer-dns4-16k-enhancement開源語音增強模型

首頁

Sepformer Dns4 16k Enhancement

由speechbrain開發

這是一個基於SepFormer架構的語音增強模型，專門用於去噪任務，在微軟DNS-4數據集上訓練，支持16kHz採樣頻率的音頻處理。

音頻增強

PyTorch

支持多種語言開源協議:Apache-2.0 #語音降噪 #即時增強 #多語言支持

下載量 1,669

發布時間 : 8/6/2023

模型概述

該模型使用SepFormer架構實現語音增強功能，主要用於去除音頻中的背景噪聲，提高語音質量。模型在1300小時的微軟DNS 4數據集上訓練，適用於16kHz採樣頻率的音頻。

模型特點

高性能去噪

在DNS4 2022基線開發集上表現出色，DNSMOS SIG得分2.999，BAK得分3.076，OVRL得分2.437

多語言支持

支持包括英文、德文、俄文、法文、意大利文和西班牙文在內的多種語言

基於Transformer架構

採用先進的SepFormer架構，結合Transformer的優勢進行語音分離和增強

模型能力

音頻去噪

語音質量增強

背景噪聲抑制

使用案例

語音通信

VoIP通話增強

提高網絡語音通話質量，減少背景噪聲干擾

顯著改善通話清晰度

音頻後期處理

錄音去噪

對現場錄音進行降噪處理，提高語音可懂度

提升錄音質量，使語音更清晰

🚀 SepFormer語音增強模型

本項目提供了使用基於SpeechBrain實現的SepFormer模型進行語音增強（去噪）的工具。該模型在16k採樣頻率的1300小時Microsoft-DNS 4數據集上進行訓練。為了獲得更好的體驗，建議你進一步瞭解SpeechBrain。

🚀 快速開始

本倉庫提供了使用基於SpeechBrain實現的SepFormer模型進行語音增強（去噪）所需的所有工具。該模型在16k採樣頻率的1300小時Microsoft - DNS 4數據集上進行訓練。為了獲得更好的體驗，我們建議你進一步瞭解SpeechBrain。在DNS4 2022基線開發集上使用DNSMOS進行的評估結果如下：

版本	SIG	BAK	OVRL
08 - 01 - 23	2.999	3.076	2.437

DNSMOS（深度噪聲抑制平均意見得分）是一種非侵入式評估指標，它計算三個得分：SIG（語音質量）、BAK（背景噪聲質量）和OVRL（整體質量），得分範圍為1到5，5表示最佳質量。

✨ 主要特性

支持多種語言，包括英語、德語、俄語、法語、意大利語和西班牙語。
適用於音頻到音頻的語音增強任務。
基於SepFormer模型，在Microsoft DNS - 4數據集上訓練。
使用SpeechBrain框架實現，便於使用和擴展。

📦 安裝指南

首先，請使用以下命令安裝SpeechBrain：

pip install speechbrain

💻 使用示例

基礎用法

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')

# 若要處理自定義文件，請更改路徑
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav') 

torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)

高級用法

若要在GPU上進行推理，請在調用from_hparams方法時添加 run_opts={"device":"cuda"}。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	SepFormer
訓練數據	Microsoft - DNS 4數據集（16k採樣頻率，1300小時）
評估指標	SI - SNR、PESQ、SIG、BAK、OVRL

評估結果

模型在DNS4 2022基線開發集上的評估結果如下：

任務	數據集	語言	SIG	BAK	OVRL
語音增強	DNS - 4	德語	2.999	3.076	2.437

引用信息

引用SpeechBrain

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

引用SepFormer

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}

引用ICASSP 2022深度噪聲抑制挑戰

@inproceedings{dubey2022icassp,
  title={ICASSP 2022 Deep Noise Suppression Challenge},
  author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
  booktitle={ICASSP},
  year={2022}
}