B

Bigvgan V2 22khz 80band 256x

由nvidia開發
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
下載量 503.23k
發布時間 : 7/15/2024

模型概述

BigVGAN是一個高性能神經聲碼器,通過大規模訓練支持多種音頻類型,包括語音、環境音和樂器音。最新版本v2通過定製CUDA內核顯著提升了推理速度。

模型特點

高性能推理
通過定製CUDA內核實現1.5-3倍的推理速度提升
大規模訓練
使用多樣化音頻數據集訓練,支持多種音頻類型
高質量音頻生成
在LibriTTS等基準測試上達到state-of-the-art效果
多配置支持
提供多種採樣率(22kHz/24kHz/44kHz)和上採樣倍數的預訓練模型

模型能力

從梅爾頻譜生成高質量音頻
支持多種採樣率音頻生成
快速推理(使用CUDA內核)

使用案例

語音合成
TTS系統後端
作為文本到語音系統的聲碼器組件
生成自然流暢的語音
音頻增強
音頻超分辨率
提升低質量音頻的採樣率和清晰度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase