D

Dprnntasnet Ks16 WHAM Sepclean

由julien-c開發
這是一個基於 Asteroid 框架訓練的音頻源分離模型,專門用於從混合音頻中分離出乾淨的語音信號。
下載量 66
發布時間 : 3/2/2022

模型概述

該模型使用 DPRNNTasNet 架構,在 WHAM! 數據集的 sep_clean 任務上進行訓練,能夠有效分離混合音頻中的語音信號。

模型特點

高效音頻分離
採用 DPRNN 架構,能夠高效地從混合音頻中分離出乾淨的語音信號。
小核尺寸
使用較小的核尺寸(16),有助於捕捉更精細的音頻特徵。
高分離質量
在 WHAM! 數據集上表現出色,SI-SDR 提升達到 18.23 dB。

模型能力

音頻源分離
語音信號提取
混合音頻處理

使用案例

語音處理
語音增強
從嘈雜環境中提取清晰的語音信號
SI-SDR 提升 18.23 dB
會議記錄
分離多人同時說話的音頻信號
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase