B

Bigvgan V2 22khz 80band Fmax8k 256x

Developed by nvidia
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダで、メルスペクトログラムを高品質な波形に変換できます。v2バージョンではカスタムCUDAカーネルによる推論加速とトレーニングデータの多様性拡張が行われています。
Downloads 1,285
Release Time : 7/15/2024

Model Overview

BigVGANは高性能なニューラルボコーダで、敵対的トレーニングにより高品質なオーディオ合成を実現します。複数のサンプルレートとバンド構成に対応し、音声、音楽、環境音効果の生成に適しています。

Model Features

カスタムCUDAカーネル加速
融合アップサンプリング+活性化のCUDAカーネルを提供し、推論速度を1.5-3倍向上
マルチスケール判別器
マルチスケールサブバンドCQT判別器とメルスペクトログラム損失を採用し、オーディオ品質を向上
多様なトレーニングデータ
トレーニングセットには多言語音声、環境音効果、楽器音など様々なオーディオタイプを含む
高アップサンプリング率
最大512倍のアップサンプリング率をサポートし、44kHzの高サンプリングレートオーディオを生成可能

Model Capabilities

メルスペクトログラムから波形への変換
高品質音声合成
音楽オーディオ生成
環境音効果合成

Use Cases

音声合成
テキスト読み上げシステム
TTSパイプラインのボコーダコンポーネントとして、メルスペクトログラムを自然な音声に変換
LibriTTSデータセットでSOTA効果を達成
オーディオエンハンスメント
低品質オーディオ修復
メルスペクトログラム再構築技術により低品質録音の明瞭度を向上
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase