BigVGANオープンソース音声生成モデル - 複数のサンプリングレートと周波数帯域の設定をサポートし、高品質な音声生成を実現

ホーム

Bigvgan 24khz 100band

nvidiaによって開発

BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ生成を実現し、複数のサンプルレートとバンド構成をサポートします。

音声合成オープンソースライセンス:MIT #高忠実度オーディオ生成 #マルチサンプルレート対応 #CUDAアクセラレーション推論

ダウンロード数 273

リリース時間 : 7/15/2024

モデル概要

BigVGANは汎用ニューラルボコーダーで、メルスペクトルから高品質なオーディオ波形を生成できます。大規模トレーニングと最適化されたアーキテクチャにより、効率的なオーディオ合成を実現しています。

モデル特徴

大規模トレーニング

大規模な混合データセットを使用してトレーニングを行い、多言語音声、環境音、楽器音など様々なオーディオタイプをカバーしています。

高性能推論

カスタムCUDAカーネルを提供し、融合アップサンプリング+活性化操作をサポートし、推論速度を1.5倍から3倍向上させます。

複数構成対応

22kHz、24kHz、44kHzなどの複数のサンプルレートとバンド構成の事前トレーニング済みモデルを提供し、様々なアプリケーションシナリオに対応します。

改良された判別器と損失関数

マルチスケールサブバンドCQT判別器とマルチスケールメルスペクトル損失を使用してトレーニングを行い、生成品質を向上させます。

モデル能力

高品質オーディオ生成

メルスペクトルから波形への変換

マルチサンプルレート対応

高速推論

使用事例

音声合成

テキスト読み上げシステム

TTSシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声波形に変換します。

高品質で自然な音声出力を生成

オーディオエンハンスメント

オーディオ超解像

低品質オーディオを高品質波形に変換します。

オーディオ品質と明瞭度の向上

音楽生成

音楽合成

楽器音や環境音を生成します。

高品質な音楽フラグメント生成

🚀 BigVGAN: 大規模学習による汎用ニューラルボコーダ

BigVGANは、大規模学習を行った汎用ニューラルボコーダです。このモデルは、高品質な音声合成を実現し、多様な音声タイプに対応しています。

Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

[論文] - [コード] - [展示] - [プロジェクトページ] - [重み] - [デモ]

🚀 クイックスタート

このリポジトリには、推論が容易な事前学習済みのBigVGANチェックポイントが含まれており、huggingface_hubのサポートも追加されています。

✨ 主な機能

大規模学習により、多様な音声タイプに対応した汎用ニューラルボコーダ
カスタムCUDAカーネルを使用した高速推論
Hugging Face Hubとの統合による簡単な推論

📦 インストール

このリポジトリには、推論が容易な事前学習済みのBigVGANチェックポイントが含まれており、huggingface_hubのサポートも追加されています。

モデルの学習や追加機能に興味がある場合は、公式のGitHubリポジトリを参照してください: https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_24khz_100band

💻 使用例

基本的な使用法

以下の例では、Hugging Face Hubから事前学習済みのBigVGANジェネレータをロードし、入力波形からメルスペクトログラムを計算し、メルスペクトログラムをモデルの入力として合成波形を生成する方法を説明しています。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# モデルをインスタンス化します。オプションでuse_cuda_kernel=Trueを設定すると、高速推論が可能です。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_24khz_100band', use_cuda_kernel=False)

# モデルの重み正規化を削除し、評価モードに設定します。
model.remove_weight_norm()
model = model.eval().to(device)

# wavファイルをロードし、メルスペクトログラムを計算します。
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wavは形状が[T_time]で、値が[-1, 1]のnp.ndarrayです。
wav = torch.FloatTensor(wav).unsqueeze(0) # wavは形状が[B(1), T_time]のFloatTensorです。

# 正解音声からメルスペクトログラムを計算します。
mel = get_mel_spectrogram(wav, model.h).to(device) # melは形状が[B(1), C_mel, T_frame]のFloatTensorです。

# メルから波形を生成します。
with torch.inference_mode():
    wav_gen = model(mel) # wav_genは形状が[B(1), 1, T_time]で、値が[-1, 1]のFloatTensorです。
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_genは形状が[1, T_time]のFloatTensorです。

# 生成された波形を16ビットリニアPCMに変換することができます。
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_genは現在、形状が[1, T_time]で、dtypeがint16のnp.ndarrayです。

高度な使用法

カスタムCUDAカーネルを使用した合成を行うには、BigVGANをインスタンス化する際にuse_cuda_kernelパラメータを使用します。

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_24khz_100band', use_cuda_kernel=True)

初めて適用するときは、nvccとninjaを使用してカーネルをビルドします。ビルドが成功すると、カーネルはalias_free_activation/cuda/buildに保存され、モデルは自動的にカーネルをロードします。コードベースはCUDA 12.1でテストされています。

システムに両方がインストールされていること、およびシステムにインストールされているnvccのバージョンがPyTorchビルドで使用されているバージョンと一致することを確認してください。

詳細については、公式のGitHubリポジトリを参照してください: https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📚 ドキュメント

ニュース

2024年7月 (v2.3):
- コードの一般的なリファクタリングと改善により、可読性が向上しました。
- アンチエイリアス化された活性化関数（アップサンプリング + 活性化関数 + ダウンサンプリング）の完全に融合されたCUDAカーネルと推論速度のベンチマークが追加されました。
2024年7月 (v2.2): リポジトリには、gradioを使用したインタラクティブなローカルデモが含まれるようになりました。
2024年7月 (v2.1): BigVGANは、事前学習済みのチェックポイントを使用して🤗 Hugging Face Hubと統合され、簡単に推論を行うことができるようになりました。また、Hugging Face Spacesにインタラクティブなデモも提供しています。
2024年7月 (v2): BigVGAN-v2と事前学習済みのチェックポイントをリリースしました。主な特徴は以下の通りです。
- 推論用のカスタムCUDAカーネル: CUDAで記述された融合されたアップサンプリング + 活性化カーネルを提供し、推論速度を高速化します。単一のA100 GPUで1.5 - 3倍の高速化が確認されています。
- 改良された識別器と損失関数: BigVGAN-v2は、マルチスケールサブバンドCQT識別器とマルチスケールメルスペクトログラム損失を使用して学習されています。
- より大規模な学習データ: BigVGAN-v2は、複数の言語の音声、環境音、楽器音など、多様な音声タイプを含むデータセットを使用して学習されています。
- 多様な音声設定で事前学習されたBigVGAN-v2のチェックポイントを提供し、最大44 kHzのサンプリングレートと512倍のアップサンプリング比をサポートしています。

事前学習済みモデル

Hugging Face Collectionsに事前学習済みモデルを提供しています。リストされているモデルリポジトリ内で、ジェネレータの重み（bigvgan_generator.ptという名前）とその識別器/オプティマイザの状態（bigvgan_discriminator_optimizer.ptという名前）のチェックポイントをダウンロードすることができます。

モデル名	サンプリングレート	メルバンド	fmax	アップサンプリング比	パラメータ数	データセット	ステップ数	ファインチューニング
bigvgan_v2_44khz_128band_512x	44 kHz	128	22050	512	122M	大規模コンパイルデータセット	3M	いいえ
bigvgan_v2_44khz_128band_256x	44 kHz	128	22050	256	112M	大規模コンパイルデータセット	3M	いいえ
bigvgan_v2_24khz_100band_256x	24 kHz	100	12000	256	112M	大規模コンパイルデータセット	3M	いいえ
bigvgan_v2_22khz_80band_256x	22 kHz	80	11025	256	112M	大規模コンパイルデータセット	3M	いいえ
bigvgan_v2_22khz_80band_fmax8k_256x	22 kHz	80	8000	256	112M	大規模コンパイルデータセット	3M	いいえ
bigvgan_24khz_100band	24 kHz	100	12000	256	112M	LibriTTS	5M	いいえ
bigvgan_base_24khz_100band	24 kHz	100	12000	256	14M	LibriTTS	5M	いいえ
bigvgan_22khz_80band	22 kHz	80	8000	256	112M	LibriTTS + VCTK + LJSpeech	5M	いいえ
bigvgan_base_22khz_80band	22 kHz	80	8000	256	14M	LibriTTS + VCTK + LJSpeech	5M	いいえ