# 高保真音頻合成

Bigvgan 22khz 80band
MIT
BigVGAN是一種通過大規模訓練實現的通用神經聲碼器,能夠為語音合成等任務提供高質量的音頻輸出。
語音合成
B
nvidia
2,344
1
Bigvgan V2 44khz 128band 512x
MIT
BigVGAN是一種基於大規模訓練的通用神經聲碼器,能夠高質量地生成音頻波形。
音頻生成
B
nvidia
223.13k
41
Bigvgan V2 44khz 128band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠高質量地將梅爾頻譜轉換為波形音頻。
語音合成
B
nvidia
367
7
Bigvgan V2 22khz 80band Fmax8k 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠高質量地將梅爾頻譜轉換為波形。v2版本通過定製CUDA內核加速推理,並擴展了訓練數據多樣性。
語音合成
B
nvidia
1,285
1
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Bigvgan V2 24khz 100band 256x
MIT
BigVGAN是一種高性能神經聲碼器,通過大規模訓練實現高質量的音頻合成,支持多種採樣率和頻帶配置。
音頻生成
B
nvidia
34.03k
14
Tango2
Tango 2是基於Tango改進的文本生成音頻模型,通過DPO對齊訓練優化音頻生成質量
音頻生成 Transformers 英語
T
declare-lab
147
17
Musicgen Stereo Melody
MusicGen是一款由Meta AI開發的文本生成音樂模型,能夠根據文本描述或音頻提示生成高質量立體聲音樂樣本。
音頻生成 Transformers
M
facebook
82
10
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase