B

Bigvgan V2 22khz 80band 256x

nvidiaによって開発
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトログラムから高品質なオーディオ波形を生成できます。
ダウンロード数 503.23k
リリース時間 : 7/15/2024

モデル概要

BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより音声、環境音、楽器音など多様なオーディオタイプをサポートします。最新バージョンv2ではカスタムCUDAカーネルにより推論速度が大幅に向上しました。

モデル特徴

高性能推論
カスタムCUDAカーネルにより1.5-3倍の推論速度向上を実現
大規模トレーニング
多様なオーディオデータセットでトレーニングされ、様々なオーディオタイプをサポート
高品質オーディオ生成
LibriTTSなどのベンチマークでstate-of-the-artの効果を達成
マルチ設定サポート
複数のサンプリングレート(22kHz/24kHz/44kHz)とアップサンプリング倍率の事前トレーニング済みモデルを提供

モデル能力

メルスペクトログラムから高品質オーディオを生成
複数のサンプリングレートでのオーディオ生成をサポート
高速推論(CUDAカーネル使用)

使用事例

音声合成
TTSシステムバックエンド
テキスト読み上げシステムのボコーダーコンポーネントとして
自然で滑らかな音声を生成
オーディオエンハンスメント
オーディオ超解像
低品質オーディオのサンプリングレートと明瞭度を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase