B

Bigvgan V2 24khz 100band 256x

nvidiaによって開発
BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプルレートとバンド構成をサポートします。
ダウンロード数 34.03k
リリース時間 : 7/15/2024

モデル概要

BigVGANは汎用ニューラルボコーダーで、メルスペクトルを高品質な波形オーディオに変換できます。大規模トレーニングと先進的なアーキテクチャ設計により、優れたオーディオ生成効果を実現しています。

モデル特徴

大規模トレーニング
多言語音声、環境音、楽器音を含む多様なオーディオデータセットを使用してトレーニングし、モデルの汎化能力を向上させます。
高性能推論
カスタムCUDAカーネルを提供し、融合アップサンプリング+活性化操作をサポートし、推論速度を1.5-3倍向上させます。
多構成サポート
複数のサンプルレート(22kHz-44kHz)とバンド構成の事前トレーニング済みモデルを提供し、さまざまなアプリケーションシナリオに対応します。
改良された識別器
マルチスケールサブバンドCQT識別器とマルチスケールメルスペクトル損失トレーニングを採用し、生成品質を向上させます。

モデル能力

メルスペクトルから波形への変換
高品質オーディオ合成
多サンプルレートサポート
高速推論

使用事例

音声合成
テキスト読み上げシステム
TTSシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声波形に変換します。
高品質で自然な音声出力を生成
オーディオエンハンスメント
オーディオ超解像度
低品質オーディオを高品質波形に変換します。
オーディオ品質と明瞭度を向上
音楽生成
楽器音合成
さまざまな楽器の音波形を生成します。
高品質な楽器音色合成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase