V

Vocos Mel Hifigan Compat 44100khz

由patriotyk開發
Vocos 是一款快速神經聲碼器,通過生成頻譜系數實現高效音頻重建,特別適用於文本轉語音任務。
下載量 2,222
發布時間 : 5/10/2024

模型概述

Vocos 是一款專為從聲學特徵合成音頻波形而設計的快速神經聲碼器。它通過生成頻譜系數並藉助逆傅里葉變換實現快速音頻重建,相比傳統GAN聲碼器具有更快的處理速度。

模型特點

快速頻譜重建
通過生成頻譜系數而非直接建模時域音頻樣本,實現更快速的音頻重建
高保真音頻合成
採用梅爾頻譜作為聲學特徵,生成高質量的音頻波形
兼容多種TTS模型
設計兼容多種文本轉語音模型的聲學輸出
高效訓練
使用兩塊RTX-3090顯卡訓練約一個月即可完成

模型能力

梅爾頻譜到音頻轉換
高保真語音合成
快速音頻重建

使用案例

語音合成
文本轉語音系統
作為TTS系統的後端聲碼器,將梅爾頻譜轉換為自然語音
生成高質量語音輸出
音頻處理
語音增強
對語音特徵進行轉換和重建
可能改善語音質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase