B

Bigvgan V2 44khz 128band 512x

Developed by nvidia
BigVGAN是一種基於大規模訓練的通用神經聲碼器,能夠高質量地生成音頻波形。
Downloads 223.13k
Release Time : 7/15/2024

Model Overview

BigVGAN是一種高性能的神經聲碼器,通過大規模訓練實現通用音頻生成,支持多種採樣率和上採樣率配置。

Model Features

大規模訓練
使用包含多種音頻類型的大規模數據集訓練,涵蓋多語言語音、環境音和樂器音。
高性能推理
提供融合的CUDA內核,在單塊A100 GPU上速度提升1.5至3倍。
多種配置支持
提供多種音頻配置的預訓練檢查點,支持最高44 kHz採樣率和512倍上採樣率。
改進的判別器
採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失進行訓練。

Model Capabilities

高質量音頻生成
梅爾頻譜到波形轉換
多采樣率支持
快速推理

Use Cases

語音合成
文本到語音系統
作為TTS系統的後端聲碼器,將梅爾頻譜轉換為自然語音波形。
生成高質量、自然的語音輸出
音頻增強
音頻超分辨率
提升低質量音頻的採樣率和音質。
生成高保真音頻輸出
音樂生成
樂器音合成
生成各種樂器的音頻波形。
生成高質量樂器音
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase