BigVGAN v2開源音頻合成模型 - 多采樣率與頻帶配置，免費實現高質量音效！

首頁

Bigvgan V2 24khz 100band 256x

由nvidia開發

BigVGAN是一種高性能神經聲碼器，通過大規模訓練實現高質量的音頻合成，支持多種採樣率和頻帶配置。

音頻生成開源協議:MIT #高保真音頻合成 #多尺度梅爾頻譜 #CUDA加速推理

下載量 34.03k

發布時間 : 7/15/2024

模型概述

BigVGAN是一種通用神經聲碼器，能夠將梅爾頻譜轉換為高質量的波形音頻。它通過大規模訓練和先進的架構設計，實現了優異的音頻生成效果。

模型特點

大規模訓練

使用包含多語言語音、環境音和樂器聲的多樣化音頻數據集進行訓練，提升模型的泛化能力。

高性能推理

提供定製CUDA內核，支持融合上採樣+激活操作，推理速度提升1.5-3倍。

多配置支持

提供多種採樣率（22kHz-44kHz）和頻帶配置的預訓練模型，適應不同應用場景。

改進的判別器

採用多尺度子帶CQT判別器和多尺度梅爾頻譜損失訓練，提升生成質量。

模型能力

梅爾頻譜到波形轉換

高質量音頻合成

多采樣率支持

快速推理

使用案例

語音合成

文本到語音系統

作為TTS系統的後端聲碼器，將梅爾頻譜轉換為自然語音波形。

生成高質量、自然的語音輸出

音頻增強

音頻超分辨率

將低質量音頻轉換為高質量波形。

提升音頻質量和清晰度

音樂生成

樂器聲音合成

生成各種樂器的聲音波形。

高質量樂器音色合成

🚀 BigVGAN：大規模訓練的通用神經聲碼器

BigVGAN是一種經過大規模訓練的通用神經聲碼器，可用於音頻生成，能將輸入的音頻特徵轉換為高質量的音頻波形。

作者信息

Sang - gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

論文影響力

[](https://paperswithcode.com/sota/speech - synthesis - on - libritts?p=bigvgan - a - universal - neural - vocoder - with - large)

模型圖示

🚀 快速開始

📦 安裝指南

本倉庫包含預訓練的BigVGAN檢查點，可輕鬆進行推理，並額外支持huggingface_hub。

如果您對模型訓練和其他功能感興趣，請訪問官方GitHub倉庫獲取更多信息：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_v2_24khz_100band_256x

💻 使用示例

基礎用法

以下示例描述瞭如何使用BigVGAN：從Hugging Face Hub加載預訓練的BigVGAN生成器，從輸入波形計算梅爾頻譜圖，並使用梅爾頻譜圖作為模型輸入生成合成波形。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# 實例化模型。您可以選擇設置use_cuda_kernel=True以加快推理速度。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_24khz_100band_256x', use_cuda_kernel=False)

# 移除模型中的權重歸一化並設置為評估模式
model.remove_weight_norm()
model = model.eval().to(device)

# 加載wav文件並計算梅爾頻譜圖
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wav是形狀為[T_time]且值在[-1, 1]之間的np.ndarray
wav = torch.FloatTensor(wav).unsqueeze(0) # wav是形狀為[B(1), T_time]的FloatTensor

# 從真實音頻中計算梅爾頻譜圖
mel = get_mel_spectrogram(wav, model.h).to(device) # mel是形狀為[B(1), C_mel, T_frame]的FloatTensor

# 從梅爾頻譜圖生成波形
with torch.inference_mode():
    wav_gen = model(mel) # wav_gen是形狀為[B(1), 1, T_time]且值在[-1, 1]之間的FloatTensor
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_gen是形狀為[1, T_time]的FloatTensor

# 您可以將生成的波形轉換為16位線性PCM
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_gen現在是形狀為[1, T_time]且數據類型為int16的np.ndarray

高級用法

使用自定義CUDA內核進行合成

您可以在實例化BigVGAN時使用參數use_cuda_kernel來應用快速CUDA推理內核：

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_24khz_100band_256x', use_cuda_kernel=True)

首次應用時，它會使用nvcc和ninja構建內核。如果構建成功，內核將保存到alias_free_activation/cuda/build，模型會自動加載該內核。代碼庫已使用CUDA 12.1進行測試。

請確保您的系統中同時安裝了這兩個工具，並且系統中安裝的nvcc版本與您的PyTorch版本相匹配。

如需詳細信息，請參閱官方GitHub倉庫：https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📚 詳細文檔

預訓練模型

我們在[Hugging Face Collections](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a)上提供了預訓練模型。您可以在列出的模型倉庫中下載生成器權重（名為bigvgan_generator.pt）及其判別器/優化器狀態（名為bigvgan_discriminator_optimizer.pt）的檢查點。

模型名稱	採樣率	梅爾帶數	fmax	上採樣率	參數數量	數據集	步數	微調情況
bigvgan_v2_44khz_128band_512x	44 kHz	128	22050	512	122M	大規模編譯數據集	5M	否
bigvgan_v2_44khz_128band_256x	44 kHz	128	22050	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_24khz_100band_256x	24 kHz	100	12000	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_22khz_80band_256x	22 kHz	80	11025	256	112M	大規模編譯數據集	5M	否
bigvgan_v2_22khz_80band_fmax8k_256x	22 kHz	80	8000	256	112M	大規模編譯數據集	5M	否
bigvgan_24khz_100band	24 kHz	100	12000	256	112M	LibriTTS	5M	否
bigvgan_base_24khz_100band	24 kHz	100	12000	256	14M	LibriTTS	5M	否
bigvgan_22khz_80band	22 kHz	80	8000	256	112M	LibriTTS + VCTK + LJSpeech	5M	否
bigvgan_base_22khz_80band	22 kHz	80	8000	256	14M	LibriTTS + VCTK + LJSpeech	5M	否