BigVGAN開源神經聲碼器 - 免費部署帶來語音合成高質量音頻輸出

首頁

Bigvgan 22khz 80band

由nvidia開發

BigVGAN是一種通過大規模訓練實現的通用神經聲碼器，能夠為語音合成等任務提供高質量的音頻輸出。

語音合成開源協議:MIT #高保真音頻合成 #多采樣率支持 #CUDA加速推理

下載量 2,344

發布時間 : 7/15/2024

模型概述

BigVGAN是一種通用神經聲碼器，通過大規模訓練實現高質量的音頻生成，適用於語音合成等任務。

模型特點

大規模訓練

通過大規模數據集訓練，提供高質量的音頻輸出。

CUDA內核融合

實現抗鋸齒激活的全融合CUDA內核，提高推理速度。

多采樣率支持

支持高達44 kHz的採樣率和512x的上採樣率。

改進的判別器

使用多尺度子帶CQT判別器和多尺度梅爾頻譜圖損失進行訓練。

模型能力

高質量音頻生成

語音合成

多采樣率支持

使用案例

語音合成

文本到語音

將文本轉換為自然語音

高質量的語音輸出

音頻增強

提升低質量音頻的清晰度

改善的音頻質量

🚀 BigVGAN：大規模訓練的通用神經聲碼器

BigVGAN是一種通過大規模訓練實現的通用神經聲碼器，能夠有效應用於音頻生成領域，為語音合成等任務提供高質量的音頻輸出。

🚀 快速開始

本倉庫包含預訓練的BigVGAN檢查點，方便進行推理，並提供了額外的huggingface_hub支持。

如果你對模型訓練和其他功能感興趣，請訪問官方GitHub倉庫獲取更多信息：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_22khz_80band

✨ 主要特性

代碼優化：2024年7月（v2.3）進行了全面重構和代碼改進，提高了代碼的可讀性。
CUDA內核融合：2024年7月（v2.3）實現了抗鋸齒激活（上採樣 + 激活 + 下采樣）的全融合CUDA內核，並進行了推理速度基準測試。
本地交互演示：2024年7月（v2.2），倉庫中增加了使用gradio的交互式本地演示。
Hugging Face集成：2024年7月（v2.1），BigVGAN集成到了Hugging Face Hub，可通過預訓練檢查點輕鬆進行推理，同時在Hugging Face Spaces上提供了交互式演示。
BigVGAN-v2發佈：2024年7月（v2）發佈了BigVGAN-v2及預訓練檢查點，具有自定義CUDA推理內核、改進的判別器和損失函數、更大的訓練數據集等特點，並提供了支持高達44 kHz採樣率和512x上採樣率的預訓練檢查點。

📦 安裝指南

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_22khz_80band

💻 使用示例

基礎用法

以下示例展示瞭如何使用BigVGAN：從Hugging Face Hub加載預訓練的BigVGAN生成器，從輸入波形計算梅爾頻譜圖，並使用梅爾頻譜圖作為模型輸入生成合成波形。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# 實例化模型。你可以選擇設置use_cuda_kernel=True以加快推理速度。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_22khz_80band', use_cuda_kernel=False)

# 移除模型中的權重歸一化並設置為評估模式
model.remove_weight_norm()
model = model.eval().to(device)

# 加載wav文件並計算梅爾頻譜圖
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wav是形狀為[T_time]且值在[-1, 1]之間的np.ndarray
wav = torch.FloatTensor(wav).unsqueeze(0) # wav是形狀為[B(1), T_time]的FloatTensor

# 從真實音頻計算梅爾頻譜圖
mel = get_mel_spectrogram(wav, model.h).to(device) # mel是形狀為[B(1), C_mel, T_frame]的FloatTensor

# 從梅爾頻譜圖生成波形
with torch.inference_mode():
    wav_gen = model(mel) # wav_gen是形狀為[B(1), 1, T_time]且值在[-1, 1]之間的FloatTensor
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_gen是形狀為[1, T_time]的FloatTensor

# 你可以將生成的波形轉換為16位線性PCM
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_gen現在是形狀為[1, T_time]且數據類型為int16的np.ndarray

高級用法

你可以在實例化BigVGAN時使用參數use_cuda_kernel來應用快速CUDA推理內核：

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_22khz_80band', use_cuda_kernel=True)

首次應用時，它會使用nvcc和ninja構建內核。如果構建成功，內核將保存到alias_free_activation/cuda/build，模型會自動加載該內核。代碼庫已使用CUDA 12.1進行測試。

請確保你的系統中同時安裝了這兩個工具，並且系統中安裝的nvcc版本與你使用的PyTorch版本相匹配。

詳細信息請參考官方GitHub倉庫：https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📚 詳細文檔

預訓練模型

我們在Hugging Face Collections上提供了預訓練模型。你可以在列出的模型倉庫中下載生成器權重（名為bigvgan_generator.pt）及其判別器/優化器狀態（名為bigvgan_discriminator_optimizer.pt）的檢查點。

屬性	詳情
模型名稱	bigvgan_v2_44khz_128band_512x、bigvgan_v2_44khz_128band_256x等多個模型
採樣率	22 kHz、24 kHz、44 kHz等
梅爾帶	80、100、128等
fmax	8000、11025、12000、22050等
上採樣率	256、512
參數數量	14M、112M、122M等
訓練數據集	Large-scale Compilation、LibriTTS、LibriTTS + VCTK + LJSpeech等
訓練步數	3M、5M
微調情況	否

論文與代碼鏈接

作者：Sang - gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro、Sungroh Yoon
論文鏈接：[Paper]
代碼鏈接：[Code]
展示鏈接：[Showcase]
項目頁面：[Project Page]
權重鏈接：[Weights]
演示鏈接：[Demo]

新聞動態

2024年7月（v2.3）：
- 進行了全面重構和代碼改進，提高了代碼的可讀性。
- 實現了抗鋸齒激活（上採樣 + 激活 + 下采樣）的全融合CUDA內核，並進行了推理速度基準測試。
2024年7月（v2.2）：倉庫中增加了使用gradio的交互式本地演示。
2024年7月（v2.1）：BigVGAN集成到了Hugging Face Hub，可通過預訓練檢查點輕鬆進行推理，同時在Hugging Face Spaces上提供了交互式演示。
2024年7月（v2）：發佈了BigVGAN - v2及預訓練檢查點，亮點如下：
- 自定義CUDA推理內核：提供了用CUDA編寫的融合上採樣 + 激活內核，以加快推理速度。在單個A100 GPU上的測試顯示，速度可提高1.5 - 3倍。
- 改進的判別器和損失函數：使用多尺度子帶CQT判別器和多尺度梅爾頻譜圖損失進行訓練。
- 更大的訓練數據集：使用包含多種音頻類型的數據集進行訓練，包括多種語言的語音、環境聲音和樂器聲音。
- 提供了使用多種音頻配置的BigVGAN - v2預訓練檢查點，支持高達44 kHz的採樣率和512x的上採樣率。