BigVGAN開源音頻生成模型 - 免費部署實現高質量音頻波形生成

Home

Bigvgan V2 44khz 128band 512x

Developed by nvidia

BigVGAN是一種基於大規模訓練的通用神經聲碼器，能夠高質量地生成音頻波形。

音頻生成 Open Source License:MIT #高保真音頻合成 #多采樣率支持 #CUDA加速

Downloads 223.13k

Release Time : 7/15/2024

Model Overview

BigVGAN是一種高性能的神經聲碼器，通過大規模訓練實現通用音頻生成，支持多種採樣率和上採樣率配置。

Model Features

大規模訓練

使用包含多種音頻類型的大規模數據集訓練，涵蓋多語言語音、環境音和樂器音。

高性能推理

提供融合的CUDA內核，在單塊A100 GPU上速度提升1.5至3倍。

多種配置支持

提供多種音頻配置的預訓練檢查點，支持最高44 kHz採樣率和512倍上採樣率。

改進的判別器

採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失進行訓練。

Model Capabilities

高質量音頻生成

梅爾頻譜到波形轉換

多采樣率支持

快速推理

Use Cases

語音合成

文本到語音系統

作為TTS系統的後端聲碼器，將梅爾頻譜轉換為自然語音波形。

生成高質量、自然的語音輸出

音頻增強

音頻超分辨率

提升低質量音頻的採樣率和音質。

生成高保真音頻輸出

音樂生成

樂器音合成

生成各種樂器的音頻波形。

生成高質量樂器音

🚀 BigVGAN：大規模訓練的通用神經聲碼器

BigVGAN是一款經過大規模訓練的通用神經聲碼器，能夠有效應用於音頻生成任務，在語音合成等領域具有出色表現。

📚 詳細文檔

論文與代碼鏈接

作者：Sang - gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro、Sungroh Yoon
論文 - 代碼 - [展示](https://bigvgan - demo.github.io/) - 項目頁面 - [權重](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a) - 演示

論文影響力

[](https://paperswithcode.com/sota/speech - synthesis - on - libritts?p=bigvgan - a - universal - neural - vocoder - with - large)

模型圖示

📢 最新消息

2024年7月（v2.3）：
- 進行了全面重構和代碼改進，提高了代碼的可讀性。
- 實現了抗鋸齒激活（上採樣 + 激活 + 下采樣）的全融合CUDA內核，並進行了推理速度基準測試。
2024年7月（v2.2）：倉庫現在包含一個使用Gradio的交互式本地演示。
2024年7月（v2.1）：BigVGAN現已集成到🤗 Hugging Face Hub，可輕鬆使用預訓練檢查點進行推理。我們還在Hugging Face Spaces上提供了一個交互式演示。
2024年7月（v2）：我們發佈了BigVGAN - v2及預訓練檢查點。以下是主要亮點：
- 自定義CUDA推理內核：我們提供了一個用CUDA編寫的融合上採樣 + 激活內核，以加速推理速度。我們的測試顯示，在單個A100 GPU上速度可提高1.5 - 3倍。
- 改進的判別器和損失函數：BigVGAN - v2使用多尺度子帶CQT判別器和多尺度梅爾頻譜圖損失進行訓練。
- 更大的訓練數據：BigVGAN - v2使用包含多種音頻類型的數據集進行訓練，包括多種語言的語音、環境聲音和樂器聲音。
- 我們提供了使用多種音頻配置的BigVGAN - v2預訓練檢查點，支持高達44 kHz的採樣率和512倍的上採樣率。

📦 安裝指南

本倉庫包含預訓練的BigVGAN檢查點，可輕鬆進行推理，並提供了額外的huggingface_hub支持。

如果您對模型訓練和其他功能感興趣，請訪問官方GitHub倉庫獲取更多信息：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_v2_44khz_128band_512x

💻 使用示例

基礎用法

以下示例展示瞭如何使用BigVGAN：從Hugging Face Hub加載預訓練的BigVGAN生成器，從輸入波形計算梅爾頻譜圖，並使用梅爾頻譜圖作為模型輸入生成合成波形。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# 實例化模型。您可以選擇設置use_cuda_kernel=True以加快推理速度。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_512x', use_cuda_kernel=False)

# 移除模型中的權重歸一化並設置為評估模式
model.remove_weight_norm()
model = model.eval().to(device)

# 加載wav文件並計算梅爾頻譜圖
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wav是形狀為[T_time]且值在[-1, 1]之間的np.ndarray
wav = torch.FloatTensor(wav).unsqueeze(0) # wav是形狀為[B(1), T_time]的FloatTensor

# 從真實音頻計算梅爾頻譜圖
mel = get_mel_spectrogram(wav, model.h).to(device) # mel是形狀為[B(1), C_mel, T_frame]的FloatTensor

# 從梅爾頻譜圖生成波形
with torch.inference_mode():
    wav_gen = model(mel) # wav_gen是形狀為[B(1), 1, T_time]且值在[-1, 1]之間的FloatTensor
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_gen是形狀為[1, T_time]的FloatTensor

# 您可以將生成的波形轉換為16位線性PCM
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_gen現在是形狀為[1, T_time]且數據類型為int16的np.ndarray

高級用法

您可以在實例化BigVGAN時使用參數use_cuda_kernel來應用快速CUDA推理內核：

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_512x', use_cuda_kernel=True)

首次應用時，它會使用nvcc和ninja構建內核。如果構建成功，內核將保存到alias_free_activation/cuda/build，模型會自動加載內核。代碼庫已使用CUDA 12.1進行測試。

請確保您的系統中安裝了nvcc和ninja，並且系統中安裝的nvcc版本與您的PyTorch版本相匹配。

更多詳細信息，請參閱官方GitHub倉庫：https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📑 預訓練模型

我們在[Hugging Face Collections](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a)上提供了預訓練模型。您可以在列出的模型倉庫中下載生成器權重（名為bigvgan_generator.pt）及其判別器/優化器狀態（名為bigvgan_discriminator_optimizer.pt）的檢查點。

模型名稱	採樣率	梅爾帶	fmax	上採樣率	參數數量	數據集	步數	微調情況
bigvgan_v2_44khz_128band_512x	44 kHz	128	22050	512	122M	大規模編譯數據集	5M	否
bigvgan_v2_44khz_128band_256x	44 kHz	128	22050	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_24khz_100band_256x	24 kHz	100	12000	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_22khz_80band_256x	22 kHz	80	11025	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_22khz_80band_fmax8k_256x	22 kHz	80	8000	256	112M	大規模編譯數據集	5M	否
bigvgan_24khz_100band	24 kHz	100	12000	256	112M	LibriTTS	5M	否
bigvgan_base_24khz_100band	24 kHz	100	12000	256	14M	LibriTTS	5M	否
bigvgan_22khz_80band	22 kHz	80	8000	256	112M	LibriTTS + VCTK + LJSpeech	5M	否
bigvgan_base_22khz_80band	22 kHz	80	8000	256	14M	LibriTTS + VCTK + LJSpeech	5M	否