mtl-mimic-voicebank開源語音系統 - 增強語音並實現魯棒性語音識別

首頁

Mtl Mimic Voicebank

由speechbrain開發

基於SpeechBrain的語音增強與魯棒性ASR訓練系統，採用模仿損失訓練策略

音頻增強英語開源協議:Apache-2.0 #語音增強 #魯棒性ASR #模仿損失訓練

下載量 11.11k

發布時間 : 3/2/2022

模型概述

該模型通過三階段訓練流程實現語音增強和自動語音識別(ASR)，支持16kHz單通道音頻處理，包含預訓練感知模型、增強模型訓練和ASR微調模塊

模型特點

模仿損失訓練

採用三階段訓練策略，通過預訓練感知模型引導增強模型學習

聯合優化

增強模型與ASR模型可獨立或聯合使用，提升系統靈活性

標準化處理

自動處理16kHz單通道音頻，支持重採樣和單聲道轉換

模型能力

語音增強

噪聲抑制

魯棒性語音識別

音頻特徵提取

使用案例

語音通信

嘈雜環境語音增強

在背景噪聲環境中提升語音清晰度

PESQ 3.05 / COVL 3.74（測試集）

語音識別

噪聲環境ASR

提高噪聲環境下的語音識別準確率

WER 2.80（測試集）

🚀 類ResNet模型

本倉庫提供了在SpeechBrain中進行語音增強和魯棒自動語音識別（ASR）訓練所需的所有工具。為獲得更好的使用體驗，建議您進一步瞭解 SpeechBrain。該模型的性能如下：

版本發佈日期	測試PESQ	測試COVL	驗證集WER	測試集WER
22-06-21	3.05	3.74	2.89	2.80

該模型適用於SpeechBrain v0.5.12版本。

🚀 快速開始

本項目提供了在SpeechBrain中進行語音增強和魯棒自動語音識別（ASR）訓練的工具，若想獲得更好體驗，建議瞭解 SpeechBrain。

✨ 主要特性

標籤：Robust ASR、audio-to-audio、speech-enhancement、PyTorch、speechbrain
許可證：apache-2.0
數據集：Voicebank、DEMAND
評估指標：WER、PESQ、COVL

📦 安裝指南

首先，請使用以下命令安裝SpeechBrain：

pip install speechbrain

建議您閱讀我們的教程，進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

使用以下簡單代碼，即可使用經過模擬損失訓練的模型進行語音增強：

import torchaudio
from speechbrain.inference.enhancement import WaveformEnhancement

enhance_model = WaveformEnhancement.from_hparams(
    source="speechbrain/mtl-mimic-voicebank",
    savedir="pretrained_models/mtl-mimic-voicebank",
)
enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav")

# Saving enhanced signal on disk
torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)

該系統使用採樣率為16kHz（單聲道）的錄音進行訓練。調用 enhance_file 時，代碼會自動對音頻進行歸一化處理（即重採樣和單聲道選擇）。如果使用 enhance_batch，請確保輸入張量符合預期的採樣率。

高級用法

若要在GPU上進行推理，在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}：

import torchaudio
from speechbrain.inference.enhancement import WaveformEnhancement

enhance_model = WaveformEnhancement.from_hparams(
    source="speechbrain/mtl-mimic-voicebank",
    savedir="pretrained_models/mtl-mimic-voicebank",
    run_opts={"device":"cuda"}
)
enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav")

# Saving enhanced signal on disk
torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)

📚 詳細文檔

管道描述

模擬損失訓練系統包含以下三個步驟：

在乾淨語音特徵上預訓練一個感知模型，該特徵類型與增強掩碼系統所使用的特徵類型相同。
使用預訓練的感知模型，通過模擬損失訓練一個增強模型。
使用增強前端對在LibriSpeech上預訓練的大型ASR模型進行微調。

增強模型和ASR模型可以一起使用，也可以獨立使用。

訓練步驟

若要從頭開始訓練該模型，請按照以下步驟操作：

克隆SpeechBrain倉庫：

git clone https://github.com/speechbrain/speechbrain/

安裝SpeechBrain：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練腳本：

cd  recipes/Voicebank/MTL/ASR_enhance
python train.py hparams/enhance_mimic.yaml --data_folder=your_data_folder

您可以在此處找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain團隊不對該模型在其他數據集上的性能提供任何保證。

🔧 技術細節

模擬損失訓練系統分三步：先在乾淨語音特徵預訓練感知模型，再用其訓練增強模型，最後微調ASR模型。增強和ASR模型可聯用或單用。

📄 許可證

本項目採用 apache-2.0 許可證。

🔗 引用信息

引用模擬損失

如果您覺得模擬損失有用，請引用以下文獻：

@inproceedings{bagchi2018spectral,
title={Spectral Feature Mapping with Mimic Loss for Robust Speech Recognition},
author={Bagchi, Deblin and Plantinga, Peter and Stiff, Adam and Fosler-Lussier, Eric},
booktitle={IEEE Conference on Audio, Speech, and Signal Processing (ICASSP)},
year={2018}
}

引用SpeechBrain

如果您在研究或業務中使用了SpeechBrain，請引用以下內容：

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}