B

Bigvgan 22khz 80band

由nvidia開發
BigVGAN是一種通過大規模訓練實現的通用神經聲碼器,能夠為語音合成等任務提供高質量的音頻輸出。
下載量 2,344
發布時間 : 7/15/2024

模型概述

BigVGAN是一種通用神經聲碼器,通過大規模訓練實現高質量的音頻生成,適用於語音合成等任務。

模型特點

大規模訓練
通過大規模數據集訓練,提供高質量的音頻輸出。
CUDA內核融合
實現抗鋸齒激活的全融合CUDA內核,提高推理速度。
多采樣率支持
支持高達44 kHz的採樣率和512x的上採樣率。
改進的判別器
使用多尺度子帶CQT判別器和多尺度梅爾頻譜圖損失進行訓練。

模型能力

高質量音頻生成
語音合成
多采樣率支持

使用案例

語音合成
文本到語音
將文本轉換為自然語音
高質量的語音輸出
音頻增強
提升低質量音頻的清晰度
改善的音頻質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase