B

Bigvgan Melspec

Developed by cckm
基於BigVGAN的神經聲碼器,使用特定梅爾頻譜輸入進行訓練,適用於高質量音頻生成任務
Downloads 16
Release Time : 1/11/2025

Model Overview

該模型是基於NVIDIA BigVGAN的改進版本,針對特定梅爾頻譜輸入進行了優化訓練,主要用於音頻到音頻的轉換任務,能夠生成高質量的音頻輸出。

Model Features

優化的梅爾頻譜輸入
使用特定配置的梅爾頻譜作為輸入,可能提高音頻生成質量
高PESQ評分
在評估中獲得4.340的PESQ分數,接近原始NVIDIA檢查點的4.362分
兼容多種梅爾頻譜配置
支持由vocos庫生成的梅爾頻譜特徵

Model Capabilities

音頻生成
梅爾頻譜轉換
高質量語音合成

Use Cases

語音合成
文本到語音系統
作為神經聲碼器用於TTS系統的後端
生成高質量語音輸出
音頻增強
語音質量提升
用於提升低質量音頻的清晰度和自然度
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase