M

Mtl Mimic Voicebank

由speechbrain開發
基於SpeechBrain的語音增強與魯棒性ASR訓練系統,採用模仿損失訓練策略
下載量 11.11k
發布時間 : 3/2/2022

模型概述

該模型通過三階段訓練流程實現語音增強和自動語音識別(ASR),支持16kHz單通道音頻處理,包含預訓練感知模型、增強模型訓練和ASR微調模塊

模型特點

模仿損失訓練
採用三階段訓練策略,通過預訓練感知模型引導增強模型學習
聯合優化
增強模型與ASR模型可獨立或聯合使用,提升系統靈活性
標準化處理
自動處理16kHz單通道音頻,支持重採樣和單聲道轉換

模型能力

語音增強
噪聲抑制
魯棒性語音識別
音頻特徵提取

使用案例

語音通信
嘈雜環境語音增強
在背景噪聲環境中提升語音清晰度
PESQ 3.05 / COVL 3.74(測試集)
語音識別
噪聲環境ASR
提高噪聲環境下的語音識別準確率
WER 2.80(測試集)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase