B

Bigvgan Melspec

由cckm開發
基於BigVGAN的神經聲碼器,使用特定梅爾頻譜輸入進行訓練,適用於高質量音頻生成任務
下載量 16
發布時間 : 1/11/2025

模型概述

該模型是基於NVIDIA BigVGAN的改進版本,針對特定梅爾頻譜輸入進行了優化訓練,主要用於音頻到音頻的轉換任務,能夠生成高質量的音頻輸出。

模型特點

優化的梅爾頻譜輸入
使用特定配置的梅爾頻譜作為輸入,可能提高音頻生成質量
高PESQ評分
在評估中獲得4.340的PESQ分數,接近原始NVIDIA檢查點的4.362分
兼容多種梅爾頻譜配置
支持由vocos庫生成的梅爾頻譜特徵

模型能力

音頻生成
梅爾頻譜轉換
高質量語音合成

使用案例

語音合成
文本到語音系統
作為神經聲碼器用於TTS系統的後端
生成高質量語音輸出
音頻增強
語音質量提升
用於提升低質量音頻的清晰度和自然度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase