# 高保真音频合成

Bigvgan 22khz 80band
MIT
BigVGAN是一种通过大规模训练实现的通用神经声码器,能够为语音合成等任务提供高质量的音频输出。
语音合成
B
nvidia
2,344
1
Bigvgan V2 44khz 128band 512x
MIT
BigVGAN是一种基于大规模训练的通用神经声码器,能够高质量地生成音频波形。
音频生成
B
nvidia
223.13k
41
Bigvgan V2 44khz 128band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形音频。
语音合成
B
nvidia
367
7
Bigvgan V2 22khz 80band Fmax8k 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形。v2版本通过定制CUDA内核加速推理,并扩展了训练数据多样性。
语音合成
B
nvidia
1,285
1
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Bigvgan V2 24khz 100band 256x
MIT
BigVGAN是一种高性能神经声码器,通过大规模训练实现高质量的音频合成,支持多种采样率和频带配置。
音频生成
B
nvidia
34.03k
14
Tango2
Tango 2是基于Tango改进的文本生成音频模型,通过DPO对齐训练优化音频生成质量
音频生成 Transformers 英语
T
declare-lab
147
17
Musicgen Stereo Melody
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量立体声音乐样本。
音频生成 Transformers
M
facebook
82
10
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase