BigVGAN开源神经声码器 - 免费部署带来语音合成高质量音频输出

首页

Bigvgan 22khz 80band

由 nvidia 开发

BigVGAN是一种通过大规模训练实现的通用神经声码器，能够为语音合成等任务提供高质量的音频输出。

语音合成开源协议:MIT #高保真音频合成 #多采样率支持 #CUDA加速推理

下载量 2,344

发布时间 : 7/15/2024

模型简介

BigVGAN是一种通用神经声码器，通过大规模训练实现高质量的音频生成，适用于语音合成等任务。

模型特点

大规模训练

通过大规模数据集训练，提供高质量的音频输出。

CUDA内核融合

实现抗锯齿激活的全融合CUDA内核，提高推理速度。

多采样率支持

支持高达44 kHz的采样率和512x的上采样率。

改进的判别器

使用多尺度子带CQT判别器和多尺度梅尔频谱图损失进行训练。

模型能力

高质量音频生成

语音合成

多采样率支持

使用案例

语音合成

文本到语音

将文本转换为自然语音

高质量的语音输出

音频增强

提升低质量音频的清晰度

改善的音频质量

🚀 BigVGAN：大规模训练的通用神经声码器

BigVGAN是一种通过大规模训练实现的通用神经声码器，能够有效应用于音频生成领域，为语音合成等任务提供高质量的音频输出。

🚀 快速开始

本仓库包含预训练的BigVGAN检查点，方便进行推理，并提供了额外的huggingface_hub支持。

如果你对模型训练和其他功能感兴趣，请访问官方GitHub仓库获取更多信息：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_22khz_80band

✨ 主要特性

代码优化：2024年7月（v2.3）进行了全面重构和代码改进，提高了代码的可读性。
CUDA内核融合：2024年7月（v2.3）实现了抗锯齿激活（上采样 + 激活 + 下采样）的全融合CUDA内核，并进行了推理速度基准测试。
本地交互演示：2024年7月（v2.2），仓库中增加了使用gradio的交互式本地演示。
Hugging Face集成：2024年7月（v2.1），BigVGAN集成到了Hugging Face Hub，可通过预训练检查点轻松进行推理，同时在Hugging Face Spaces上提供了交互式演示。
BigVGAN-v2发布：2024年7月（v2）发布了BigVGAN-v2及预训练检查点，具有自定义CUDA推理内核、改进的判别器和损失函数、更大的训练数据集等特点，并提供了支持高达44 kHz采样率和512x上采样率的预训练检查点。

📦 安装指南

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_22khz_80band

💻 使用示例

基础用法

以下示例展示了如何使用BigVGAN：从Hugging Face Hub加载预训练的BigVGAN生成器，从输入波形计算梅尔频谱图，并使用梅尔频谱图作为模型输入生成合成波形。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# 实例化模型。你可以选择设置use_cuda_kernel=True以加快推理速度。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_22khz_80band', use_cuda_kernel=False)

# 移除模型中的权重归一化并设置为评估模式
model.remove_weight_norm()
model = model.eval().to(device)

# 加载wav文件并计算梅尔频谱图
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wav是形状为[T_time]且值在[-1, 1]之间的np.ndarray
wav = torch.FloatTensor(wav).unsqueeze(0) # wav是形状为[B(1), T_time]的FloatTensor

# 从真实音频计算梅尔频谱图
mel = get_mel_spectrogram(wav, model.h).to(device) # mel是形状为[B(1), C_mel, T_frame]的FloatTensor

# 从梅尔频谱图生成波形
with torch.inference_mode():
    wav_gen = model(mel) # wav_gen是形状为[B(1), 1, T_time]且值在[-1, 1]之间的FloatTensor
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_gen是形状为[1, T_time]的FloatTensor

# 你可以将生成的波形转换为16位线性PCM
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_gen现在是形状为[1, T_time]且数据类型为int16的np.ndarray

高级用法

你可以在实例化BigVGAN时使用参数use_cuda_kernel来应用快速CUDA推理内核：

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_22khz_80band', use_cuda_kernel=True)

首次应用时，它会使用nvcc和ninja构建内核。如果构建成功，内核将保存到alias_free_activation/cuda/build，模型会自动加载该内核。代码库已使用CUDA 12.1进行测试。

请确保你的系统中同时安装了这两个工具，并且系统中安装的nvcc版本与你使用的PyTorch版本相匹配。

详细信息请参考官方GitHub仓库：https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📚 详细文档

预训练模型

我们在Hugging Face Collections上提供了预训练模型。你可以在列出的模型仓库中下载生成器权重（名为bigvgan_generator.pt）及其判别器/优化器状态（名为bigvgan_discriminator_optimizer.pt）的检查点。

属性	详情
模型名称	bigvgan_v2_44khz_128band_512x、bigvgan_v2_44khz_128band_256x等多个模型
采样率	22 kHz、24 kHz、44 kHz等
梅尔带	80、100、128等
fmax	8000、11025、12000、22050等
上采样率	256、512
参数数量	14M、112M、122M等
训练数据集	Large-scale Compilation、LibriTTS、LibriTTS + VCTK + LJSpeech等
训练步数	3M、5M
微调情况	否

论文与代码链接

作者：Sang - gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro、Sungroh Yoon
论文链接：[Paper]
代码链接：[Code]
展示链接：[Showcase]
项目页面：[Project Page]
权重链接：[Weights]
演示链接：[Demo]

新闻动态

2024年7月（v2.3）：
- 进行了全面重构和代码改进，提高了代码的可读性。
- 实现了抗锯齿激活（上采样 + 激活 + 下采样）的全融合CUDA内核，并进行了推理速度基准测试。
2024年7月（v2.2）：仓库中增加了使用gradio的交互式本地演示。
2024年7月（v2.1）：BigVGAN集成到了Hugging Face Hub，可通过预训练检查点轻松进行推理，同时在Hugging Face Spaces上提供了交互式演示。
2024年7月（v2）：发布了BigVGAN - v2及预训练检查点，亮点如下：
- 自定义CUDA推理内核：提供了用CUDA编写的融合上采样 + 激活内核，以加快推理速度。在单个A100 GPU上的测试显示，速度可提高1.5 - 3倍。
- 改进的判别器和损失函数：使用多尺度子带CQT判别器和多尺度梅尔频谱图损失进行训练。
- 更大的训练数据集：使用包含多种音频类型的数据集进行训练，包括多种语言的语音、环境声音和乐器声音。
- 提供了使用多种音频配置的BigVGAN - v2预训练检查点，支持高达44 kHz的采样率和512x的上采样率。