S

Sepformer Wsj02mix

由speechbrain開發
基於SepFormer架構的音頻源分離模型,在WSJ0-2Mix數據集上訓練,能夠將混合音頻分離為獨立的語音源。
下載量 8,637
發布時間 : 3/2/2022

模型概述

該模型使用Transformer架構實現高質量的語音分離,適用於從混合音頻中分離出多個說話人的語音信號。

模型特點

高性能分離
在WSJ0-2Mix測試集上達到22.4dB的SI-SNRi和22.6dB的SDRi
基於Transformer
採用SepFormer架構,利用注意力機制實現有效的語音分離
易於使用
提供簡單的Python接口,只需幾行代碼即可實現音頻分離

模型能力

語音分離
音頻源分離
多說話人分離

使用案例

語音處理
會議記錄分離
從多人會議錄音中分離出各個說話人的單獨音頻
提高語音識別準確率,便於單獨分析
音頻增強
從嘈雜環境中提取清晰的語音信號
改善語音質量和可懂度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase