B

Bigvgan 24khz 100band

nvidiaによって開発
BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ生成を実現し、複数のサンプルレートとバンド構成をサポートします。
ダウンロード数 273
リリース時間 : 7/15/2024

モデル概要

BigVGANは汎用ニューラルボコーダーで、メルスペクトルから高品質なオーディオ波形を生成できます。大規模トレーニングと最適化されたアーキテクチャにより、効率的なオーディオ合成を実現しています。

モデル特徴

大規模トレーニング
大規模な混合データセットを使用してトレーニングを行い、多言語音声、環境音、楽器音など様々なオーディオタイプをカバーしています。
高性能推論
カスタムCUDAカーネルを提供し、融合アップサンプリング+活性化操作をサポートし、推論速度を1.5倍から3倍向上させます。
複数構成対応
22kHz、24kHz、44kHzなどの複数のサンプルレートとバンド構成の事前トレーニング済みモデルを提供し、様々なアプリケーションシナリオに対応します。
改良された判別器と損失関数
マルチスケールサブバンドCQT判別器とマルチスケールメルスペクトル損失を使用してトレーニングを行い、生成品質を向上させます。

モデル能力

高品質オーディオ生成
メルスペクトルから波形への変換
マルチサンプルレート対応
高速推論

使用事例

音声合成
テキスト読み上げシステム
TTSシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声波形に変換します。
高品質で自然な音声出力を生成
オーディオエンハンスメント
オーディオ超解像
低品質オーディオを高品質波形に変換します。
オーディオ品質と明瞭度の向上
音楽生成
音楽合成
楽器音や環境音を生成します。
高品質な音楽フラグメント生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase