B

Bigvgan V2 44khz 128band 256x

由nvidia開發
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠高質量地將梅爾頻譜轉換為波形音頻。
下載量 367
發布時間 : 7/15/2024

模型概述

BigVGAN是一個高性能的神經聲碼器,通過大規模訓練實現高質量的音頻合成,支持多種採樣率和頻帶配置。

模型特點

大規模訓練
使用大規模多樣化音頻數據進行訓練,包括多語言語音、環境音和樂器聲
高性能合成
提供高質量的音頻合成效果,支持高達44kHz採樣率和512倍上採樣率
定製CUDA內核
提供融合上採樣+激活的CUDA內核,可加速1.5-3倍推理速度
改進的判別器
採用多尺度子帶CQT判別器和多尺度梅爾譜損失,提升生成質量

模型能力

高質量音頻合成
梅爾頻譜到波形轉換
多采樣率支持
快速推理(使用CUDA內核)

使用案例

語音合成
TTS後端聲碼器
作為文本到語音系統的後端聲碼器,將梅爾頻譜轉換為自然語音
高質量語音輸出
音頻增強
低質量音頻重建
從壓縮或低質量音頻中重建高質量波形
改善音頻質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase