🚀 類ResNet模型
本倉庫提供了在SpeechBrain中進行語音增強和魯棒自動語音識別(ASR)訓練所需的所有工具。為獲得更好的使用體驗,建議您進一步瞭解 SpeechBrain。該模型的性能如下:
版本發佈日期 |
測試PESQ |
測試COVL |
驗證集WER |
測試集WER |
22-06-21 |
3.05 |
3.74 |
2.89 |
2.80 |
該模型適用於SpeechBrain v0.5.12版本。
🚀 快速開始
本項目提供了在SpeechBrain中進行語音增強和魯棒自動語音識別(ASR)訓練的工具,若想獲得更好體驗,建議瞭解 SpeechBrain。
✨ 主要特性
- 標籤:Robust ASR、audio-to-audio、speech-enhancement、PyTorch、speechbrain
- 許可證:apache-2.0
- 數據集:Voicebank、DEMAND
- 評估指標:WER、PESQ、COVL
📦 安裝指南
首先,請使用以下命令安裝SpeechBrain:
pip install speechbrain
建議您閱讀我們的教程,進一步瞭解 SpeechBrain。
💻 使用示例
基礎用法
使用以下簡單代碼,即可使用經過模擬損失訓練的模型進行語音增強:
import torchaudio
from speechbrain.inference.enhancement import WaveformEnhancement
enhance_model = WaveformEnhancement.from_hparams(
source="speechbrain/mtl-mimic-voicebank",
savedir="pretrained_models/mtl-mimic-voicebank",
)
enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav")
torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)
該系統使用採樣率為16kHz(單聲道)的錄音進行訓練。調用 enhance_file
時,代碼會自動對音頻進行歸一化處理(即重採樣和單聲道選擇)。如果使用 enhance_batch
,請確保輸入張量符合預期的採樣率。
高級用法
若要在GPU上進行推理,在調用 from_hparams
方法時添加 run_opts={"device":"cuda"}
:
import torchaudio
from speechbrain.inference.enhancement import WaveformEnhancement
enhance_model = WaveformEnhancement.from_hparams(
source="speechbrain/mtl-mimic-voicebank",
savedir="pretrained_models/mtl-mimic-voicebank",
run_opts={"device":"cuda"}
)
enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav")
torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)
📚 詳細文檔
管道描述
模擬損失訓練系統包含以下三個步驟:
- 在乾淨語音特徵上預訓練一個感知模型,該特徵類型與增強掩碼系統所使用的特徵類型相同。
- 使用預訓練的感知模型,通過模擬損失訓練一個增強模型。
- 使用增強前端對在LibriSpeech上預訓練的大型ASR模型進行微調。
增強模型和ASR模型可以一起使用,也可以獨立使用。
訓練步驟
若要從頭開始訓練該模型,請按照以下步驟操作:
- 克隆SpeechBrain倉庫:
git clone https://github.com/speechbrain/speechbrain/
- 安裝SpeechBrain:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 運行訓練腳本:
cd recipes/Voicebank/MTL/ASR_enhance
python train.py hparams/enhance_mimic.yaml --data_folder=your_data_folder
您可以在 此處 找到我們的訓練結果(模型、日誌等)。
侷限性
SpeechBrain團隊不對該模型在其他數據集上的性能提供任何保證。
🔧 技術細節
模擬損失訓練系統分三步:先在乾淨語音特徵預訓練感知模型,再用其訓練增強模型,最後微調ASR模型。增強和ASR模型可聯用或單用。
📄 許可證
本項目採用 apache-2.0
許可證。
🔗 引用信息
引用模擬損失
如果您覺得模擬損失有用,請引用以下文獻:
@inproceedings{bagchi2018spectral,
title={Spectral Feature Mapping with Mimic Loss for Robust Speech Recognition},
author={Bagchi, Deblin and Plantinga, Peter and Stiff, Adam and Fosler-Lussier, Eric},
booktitle={IEEE Conference on Audio, Speech, and Signal Processing (ICASSP)},
year={2018}
}
引用SpeechBrain
如果您在研究或業務中使用了SpeechBrain,請引用以下內容:
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
🔗 關於SpeechBrain
- 官網:https://speechbrain.github.io/
- 代碼倉庫:https://github.com/speechbrain/speechbrain/
- HuggingFace:https://huggingface.co/speechbrain/