B

Bigvgan V2 24khz 100band 256x

由nvidia開發
BigVGAN是一種高性能神經聲碼器,通過大規模訓練實現高質量的音頻合成,支持多種採樣率和頻帶配置。
下載量 34.03k
發布時間 : 7/15/2024

模型概述

BigVGAN是一種通用神經聲碼器,能夠將梅爾頻譜轉換為高質量的波形音頻。它通過大規模訓練和先進的架構設計,實現了優異的音頻生成效果。

模型特點

大規模訓練
使用包含多語言語音、環境音和樂器聲的多樣化音頻數據集進行訓練,提升模型的泛化能力。
高性能推理
提供定製CUDA內核,支持融合上採樣+激活操作,推理速度提升1.5-3倍。
多配置支持
提供多種採樣率(22kHz-44kHz)和頻帶配置的預訓練模型,適應不同應用場景。
改進的判別器
採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失訓練,提升生成質量。

模型能力

梅爾頻譜到波形轉換
高質量音頻合成
多采樣率支持
快速推理

使用案例

語音合成
文本到語音系統
作為TTS系統的後端聲碼器,將梅爾頻譜轉換為自然語音波形。
生成高質量、自然的語音輸出
音頻增強
音頻超分辨率
將低質量音頻轉換為高質量波形。
提升音頻質量和清晰度
音樂生成
樂器聲音合成
生成各種樂器的聲音波形。
高質量樂器音色合成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase