BigVGANオープンソースモデル - 无料でメルスペクトログラムを高品質な波形音声に変換！

ホーム

Bigvgan V2 44khz 128band 256x

nvidiaによって開発

BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトルを波形オーディオに高品質で変換できます。

音声合成オープンソースライセンス:MIT #高忠実度オーディオ合成 #マルチスケールメルスペクトル生成 #アンチエイリアシングCUDAアクセラレーション

ダウンロード数 367

リリース時間 : 7/15/2024

モデル概要

BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプリングレートとバンド構成をサポートします。

モデル特徴

大規模トレーニング

多言語音声、環境音、楽器音を含む大規模で多様なオーディオデータを使用してトレーニング

高性能合成

44kHzサンプリングレートや512倍アップサンプリングレートまでサポートする高品質なオーディオ合成効果を提供

カスタムCUDAカーネル

融合アップサンプリング+活性化のCUDAカーネルを提供し、1.5-3倍の推論速度を加速可能

改良された識別器

マルチスケールサブバンドCQT識別器とマルチスケールメルスペクトル損失を採用し、生成品質を向上

モデル能力

高品質オーディオ合成

メルスペクトルから波形変換

マルチサンプリングレートサポート

高速推論（CUDAカーネル使用）

使用事例

音声合成

TTSバックエンドボコーダー

テキスト読み上げシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声に変換

高品質音声出力

オーディオエンハンスメント

低品質オーディオ再構築

圧縮または低品質オーディオから高品質波形を再構築

オーディオ品質改善

🚀 BigVGAN: 大規模学習を用いた汎用的なニューラルボコーダ

BigVGANは、大規模学習を用いた汎用的なニューラルボコーダです。音声合成やオーディオ生成において高い性能を発揮します。

Sang - gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

[論文] - [コード] - [[展示]](https://bigvgan - demo.github.io/) - [プロジェクトページ] - [[重み]](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a) - [デモ]

[](https://paperswithcode.com/sota/speech - synthesis - on - libritts?p=bigvgan - a - universal - neural - vocoder - with - large)

🚀 クイックスタート

このリポジトリは、事前学習されたBigVGANのチェックポイントを含み、推論を簡単に行うことができます。また、huggingface_hubのサポートも追加されています。

✨ 主な機能

大規模学習を用いた汎用的なニューラルボコーダ
高速な推論のためのカスタムCUDAカーネル
Hugging Face Hubとの統合による簡単な推論

📦 インストール

このリポジトリには、事前学習されたBigVGANのチェックポイントが含まれており、推論を簡単に行うことができます。モデルの学習や追加の機能に興味がある場合は、公式のGitHubリポジトリを参照してください：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_v2_44khz_128band_256x

💻 使用例

基本的な使用法

以下の例は、BigVGANを使用する方法を説明しています。Hugging Face Hubから事前学習されたBigVGANジェネレータをロードし、入力波形からメルスペクトログラムを計算し、メルスペクトログラムをモデルの入力として合成波形を生成します。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# モデルをインスタンス化します。高速な推論のために、オプションでuse_cuda_kernel=Trueを設定できます。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_256x', use_cuda_kernel=False)

# モデルの重み正規化を削除し、評価モードに設定します。
model.remove_weight_norm()
model = model.eval().to(device)

# wavファイルをロードし、メルスペクトログラムを計算します。
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wavは形状が[T_time]で、値が[-1, 1]のnp.ndarrayです。
wav = torch.FloatTensor(wav).unsqueeze(0) # wavは形状が[B(1), T_time]のFloatTensorです。

# 正解音声からメルスペクトログラムを計算します。
mel = get_mel_spectrogram(wav, model.h).to(device) # melは形状が[B(1), C_mel, T_frame]のFloatTensorです。

# メルから波形を生成します。
with torch.inference_mode():
    wav_gen = model(mel) # wav_genは形状が[B(1), 1, T_time]で、値が[-1, 1]のFloatTensorです。
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_genは形状が[1, T_time]のFloatTensorです。

# 生成された波形を16ビットのリニアPCMに変換することができます。
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_genは現在形状が[1, T_time]で、dtypeがint16のnp.ndarrayです。

高度な使用法

カスタムCUDAカーネルを使用して合成を行うことができます。BigVGANをインスタンス化する際に、use_cuda_kernelパラメータを使用します。

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_256x', use_cuda_kernel=True)

初めて適用するときは、nvccとninjaを使用してカーネルをビルドします。ビルドが成功すると、カーネルはalias_free_activation/cuda/buildに保存され、モデルは自動的にカーネルをロードします。コードベースはCUDA 12.1でテストされています。

システムに両方がインストールされていること、およびシステムにインストールされているnvccのバージョンがPyTorchビルドで使用されているバージョンと一致することを確認してください。

詳細については、公式のGitHubリポジトリを参照してください：https://github.com/NVIDIA/BigVGAN?tab=readme - ov - file#using - custom - cuda - kernel - for - synthesis

📚 ドキュメント

事前学習済みモデル

[Hugging Face Collectionsに事前学習済みモデル](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a)を提供しています。リストされたモデルリポジトリ内で、ジェネレータの重み（bigvgan_generator.ptという名前）とその識別器/オプティマイザの状態（bigvgan_discriminator_optimizer.ptという名前）のチェックポイントをダウンロードすることができます。

モデル名	サンプリングレート	メルバンド	fmax	アップサンプリング比率	パラメータ	データセット	ステップ	ファインチューニング
bigvgan_v2_44khz_128band_512x	44 kHz	128	22050	512	122M	大規模コンパイルデータセット	5M	いいえ
bigvgan_v2_44khz_128band_256x	44 kHz	128	22050	256	112M	大規模コンパイルデータセット	5M	いいえ
bigvgan_v2_24khz_100band_256x	24 kHz	100	12000	256	112M	大規模コンパイルデータセット	5M	いいえ
bigvgan_v2_22khz_80band_256x	22 kHz	80	11025	256	112M	大規模コンパイルデータセット	5M	いいえ
bigvgan_v2_22khz_80band_fmax8k_256x	22 kHz	80	8000	256	112M	大規模コンパイルデータセット	5M	いいえ
bigvgan_24khz_100band	24 kHz	100	12000	256	112M	LibriTTS	5M	いいえ
bigvgan_base_24khz_100band	24 kHz	100	12000	256	14M	LibriTTS	5M	いいえ
bigvgan_22khz_80band	22 kHz	80	8000	256	112M	LibriTTS + VCTK + LJSpeech	5M	いいえ
bigvgan_base_22khz_80band	22 kHz	80	8000	256	14M	LibriTTS + VCTK + LJSpeech	5M	いいえ