B

Bigvgan V2 44khz 128band 512x

由nvidia開發
BigVGAN是一種基於大規模訓練的通用神經聲碼器,能夠高質量地生成音頻波形。
下載量 223.13k
發布時間 : 7/15/2024

模型概述

BigVGAN是一種高性能的神經聲碼器,通過大規模訓練實現通用音頻生成,支持多種採樣率和上採樣率配置。

模型特點

大規模訓練
使用包含多種音頻類型的大規模數據集訓練,涵蓋多語言語音、環境音和樂器音。
高性能推理
提供融合的CUDA內核,在單塊A100 GPU上速度提升1.5至3倍。
多種配置支持
提供多種音頻配置的預訓練檢查點,支持最高44 kHz採樣率和512倍上採樣率。
改進的判別器
採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失進行訓練。

模型能力

高質量音頻生成
梅爾頻譜到波形轉換
多采樣率支持
快速推理

使用案例

語音合成
文本到語音系統
作為TTS系統的後端聲碼器,將梅爾頻譜轉換為自然語音波形。
生成高質量、自然的語音輸出
音頻增強
音頻超分辨率
提升低質量音頻的採樣率和音質。
生成高保真音頻輸出
音樂生成
樂器音合成
生成各種樂器的音頻波形。
生成高質量樂器音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase