B

Bigvgan V2 44khz 128band 512x

由 nvidia 开发
BigVGAN是一种基于大规模训练的通用神经声码器,能够高质量地生成音频波形。
下载量 223.13k
发布时间 : 7/15/2024

模型简介

BigVGAN是一种高性能的神经声码器,通过大规模训练实现通用音频生成,支持多种采样率和上采样率配置。

模型特点

大规模训练
使用包含多种音频类型的大规模数据集训练,涵盖多语言语音、环境音和乐器音。
高性能推理
提供融合的CUDA内核,在单块A100 GPU上速度提升1.5至3倍。
多种配置支持
提供多种音频配置的预训练检查点,支持最高44 kHz采样率和512倍上采样率。
改进的判别器
采用多尺度子带CQT判别器和多尺度梅尔频谱损失进行训练。

模型能力

高质量音频生成
梅尔频谱到波形转换
多采样率支持
快速推理

使用案例

语音合成
文本到语音系统
作为TTS系统的后端声码器,将梅尔频谱转换为自然语音波形。
生成高质量、自然的语音输出
音频增强
音频超分辨率
提升低质量音频的采样率和音质。
生成高保真音频输出
音乐生成
乐器音合成
生成各种乐器的音频波形。
生成高质量乐器音
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase