B

Bigvgan V2 44khz 128band 256x

由 nvidia 开发
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形音频。
下载量 367
发布时间 : 7/15/2024

模型简介

BigVGAN是一个高性能的神经声码器,通过大规模训练实现高质量的音频合成,支持多种采样率和频带配置。

模型特点

大规模训练
使用大规模多样化音频数据进行训练,包括多语言语音、环境音和乐器声
高性能合成
提供高质量的音频合成效果,支持高达44kHz采样率和512倍上采样率
定制CUDA内核
提供融合上采样+激活的CUDA内核,可加速1.5-3倍推理速度
改进的判别器
采用多尺度子带CQT判别器和多尺度梅尔谱损失,提升生成质量

模型能力

高质量音频合成
梅尔频谱到波形转换
多采样率支持
快速推理(使用CUDA内核)

使用案例

语音合成
TTS后端声码器
作为文本到语音系统的后端声码器,将梅尔频谱转换为自然语音
高质量语音输出
音频增强
低质量音频重建
从压缩或低质量音频中重建高质量波形
改善音频质量
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase