C

Convtasnet WHAM Sepclean

由mpariente開發
這是一個基於Asteroid框架訓練的ConvTasNet模型,專門用於音頻分離任務,在WHAM!數據集的sep_clean任務上進行訓練。
下載量 302
發布時間 : 3/2/2022

模型概述

該模型主要用於音頻到音頻的分離任務,能夠將混合音頻中的不同源分離出來,特別適用於語音分離場景。

模型特點

高效的音頻分離
採用ConvTasNet架構,能夠高效地從混合音頻中分離出不同源
高質量分離效果
在WHAM!數據集上表現出色,SI-SDR指標達到16.21dB
輕量級設計
模型參數經過優化,適合實際應用部署

模型能力

音頻分離
語音增強
多源音頻處理

使用案例

語音處理
會議錄音分離
將多人會議的混合錄音分離為單個說話人的獨立音頻
SI-SDR提升16.21dB,語音清晰度(STOI)達到0.96
音頻後期製作
從背景音樂和音效中分離出人聲部分
SIR指標達到26.86dB,表明良好的源分離能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase