D

Dprnntasnet Ks2 WHAM Sepclean

由mpariente開發
基於Asteroid框架訓練的語音分離模型,使用WHAM!數據集進行訓練,專注於乾淨語音分離任務。
下載量 512
發布時間 : 3/2/2022

模型概述

該模型採用DPRNN架構,專門用於從混合音頻中分離出乾淨的語音信號,適用於語音增強和分離任務。

模型特點

高效語音分離
採用DPRNN架構,能夠有效處理長序列音頻信號,實現高質量的語音分離。
低採樣率支持
支持8000Hz採樣率的音頻輸入,適用於多種語音處理場景。
輕量級設計
核大小為2,濾波器數量為64的輕量級設計,平衡了性能和計算效率。

模型能力

音頻分離
語音增強
多說話人分離

使用案例

語音處理
會議錄音分離
從多人會議錄音中分離出單個說話人的清晰語音
SI-SDR提升19.32dB
語音增強
從含噪聲的錄音中提取清晰語音
STOI提升0.24
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase