B

Bigvgan 24khz 100band

由nvidia開發
BigVGAN是一種高性能神經聲碼器,通過大規模訓練實現高質量的音頻生成,支持多種採樣率和頻帶配置。
下載量 273
發布時間 : 7/15/2024

模型概述

BigVGAN是一個通用的神經聲碼器,能夠從梅爾頻譜生成高質量的音頻波形。它通過大規模訓練和優化的架構,實現了高效的音頻合成。

模型特點

大規模訓練
使用大規模混合數據集進行訓練,涵蓋多種音頻類型,包括多語言語音、環境音和樂器音。
高性能推理
提供定製CUDA內核,支持融合上採樣+激活操作,推理速度提升1.5至3倍。
多種配置支持
提供多種採樣率(22kHz、24kHz、44kHz)和頻帶配置的預訓練模型,適應不同應用場景。
改進的判別器與損失函數
採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失進行訓練,提升生成質量。

模型能力

高質量音頻生成
梅爾頻譜到波形轉換
多采樣率支持
快速推理

使用案例

語音合成
文本到語音系統
作為TTS系統的後端聲碼器,將梅爾頻譜轉換為自然語音波形。
生成高質量、自然的語音輸出
音頻增強
音頻超分辨率
將低質量音頻轉換為高質量波形。
提升音頻質量和清晰度
音樂生成
音樂合成
生成樂器音和環境音。
高質量音樂片段生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase