S

Sepformer Wham

由speechbrain開發
這是一個基於SepFormer架構的音頻源分離模型,在WHAM!數據集上訓練,能夠分離混合音頻中的不同聲源。
下載量 1,828
發布時間 : 3/2/2022

模型概述

該模型使用Transformer架構實現音頻源分離,特別適用於處理帶有環境噪聲的混合語音信號。

模型特點

高性能分離
在WHAM!測試集上達到16.3 dB SI-SNRi和16.7 dB SDRi的分離性能
環境噪聲處理
專門針對帶有環境噪聲的混合語音信號優化
基於Transformer
採用先進的SepFormer架構,利用注意力機制實現高效分離

模型能力

音頻源分離
語音分離
噪聲環境語音處理

使用案例

語音處理
會議錄音分離
從多人會議錄音中分離出單個說話人的聲音
提高語音識別準確率
噪聲環境語音增強
從帶有背景噪聲的錄音中提取清晰語音
改善語音質量和可懂度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase