B

Bigvgan V2 22khz 80band Fmax8k 256x

由 nvidia 开发
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形。v2版本通过定制CUDA内核加速推理,并扩展了训练数据多样性。
下载量 1,285
发布时间 : 7/15/2024

模型简介

BigVGAN是一种高性能神经声码器,通过对抗训练实现高质量的音频合成。支持多种采样率和频带配置,适用于语音、音乐和环境音效的生成。

模型特点

定制CUDA内核加速
提供融合上采样+激活的CUDA内核,推理速度提升1.5-3倍
多尺度判别器
采用多尺度子带CQT判别器和梅尔频谱损失,提升音频质量
多样化训练数据
训练集涵盖多语言语音、环境音效和乐器声等多种音频类型
高上采样率
支持最高512倍上采样率,可生成44kHz高采样率音频

模型能力

梅尔频谱到波形转换
高质量语音合成
音乐音频生成
环境音效合成

使用案例

语音合成
文本到语音系统
作为TTS管道的声码器组件,将梅尔频谱转换为自然语音
在LibriTTS数据集上达到SOTA效果
音频增强
低质量音频修复
通过梅尔频谱重建技术提升低质量录音的清晰度
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase