C

Convtasnet Libri3Mix Sepclean 16k

由JorisCos開發
基於Asteroid框架訓練的ConvTasNet模型,用於語音分離任務,在Libri3Mix數據集上訓練,支持16kHz採樣率的音頻輸入。
下載量 48
發布時間 : 3/2/2022

模型概述

該模型是一個音頻到音頻的轉換模型,專門用於從混合音頻中分離出乾淨的語音信號。

模型特點

高效的語音分離
能夠在混合音頻中有效分離出多個說話者的語音信號。
優化的ConvTasNet架構
採用優化的ConvTasNet架構,具有8個塊和3次重複,提供高效的音頻處理能力。
高質量分離結果
在Libri3Mix測試集上實現了較高的SI-SDR和SDR提升,表明分離效果顯著。

模型能力

多說話者語音分離
音頻信號增強
16kHz音頻處理

使用案例

語音處理
會議記錄增強
在多人同時說話的會議錄音中分離出單個說話者的語音,提高語音識別準確率。
SI-SDR提升12.3,SDR提升12.77
語音信號去混響
從嘈雜的環境中分離出乾淨的語音信號,改善語音質量。
STOI提升0.255
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase