B

Bigvgan V2 22khz 80band Fmax8k 256x

由nvidia開發
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠高質量地將梅爾頻譜轉換為波形。v2版本通過定製CUDA內核加速推理,並擴展了訓練數據多樣性。
下載量 1,285
發布時間 : 7/15/2024

模型概述

BigVGAN是一種高性能神經聲碼器,通過對抗訓練實現高質量的音頻合成。支持多種採樣率和頻帶配置,適用於語音、音樂和環境音效的生成。

模型特點

定製CUDA內核加速
提供融合上採樣+激活的CUDA內核,推理速度提升1.5-3倍
多尺度判別器
採用多尺度子帶CQT判別器和梅爾頻譜損失,提升音頻質量
多樣化訓練數據
訓練集涵蓋多語言語音、環境音效和樂器聲等多種音頻類型
高上採樣率
支持最高512倍上採樣率,可生成44kHz高採樣率音頻

模型能力

梅爾頻譜到波形轉換
高質量語音合成
音樂音頻生成
環境音效合成

使用案例

語音合成
文本到語音系統
作為TTS管道的聲碼器組件,將梅爾頻譜轉換為自然語音
在LibriTTS數據集上達到SOTA效果
音頻增強
低質量音頻修復
通過梅爾頻譜重建技術提升低質量錄音的清晰度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase