B

Bigvgan V2 44khz 128band 256x

nvidiaによって開発
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトルを波形オーディオに高品質で変換できます。
ダウンロード数 367
リリース時間 : 7/15/2024

モデル概要

BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプリングレートとバンド構成をサポートします。

モデル特徴

大規模トレーニング
多言語音声、環境音、楽器音を含む大規模で多様なオーディオデータを使用してトレーニング
高性能合成
44kHzサンプリングレートや512倍アップサンプリングレートまでサポートする高品質なオーディオ合成効果を提供
カスタムCUDAカーネル
融合アップサンプリング+活性化のCUDAカーネルを提供し、1.5-3倍の推論速度を加速可能
改良された識別器
マルチスケールサブバンドCQT識別器とマルチスケールメルスペクトル損失を採用し、生成品質を向上

モデル能力

高品質オーディオ合成
メルスペクトルから波形変換
マルチサンプリングレートサポート
高速推論(CUDAカーネル使用)

使用事例

音声合成
TTSバックエンドボコーダー
テキスト読み上げシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声に変換
高品質音声出力
オーディオエンハンスメント
低品質オーディオ再構築
圧縮または低品質オーディオから高品質波形を再構築
オーディオ品質改善
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase