B

Bigvgan Melspec

cckmによって開発
BigVGANベースのニューラルボコーダで、特定のメルスペクトル入力を使用してトレーニングされ、高品質なオーディオ生成タスクに適しています
ダウンロード数 16
リリース時間 : 1/11/2025

モデル概要

このモデルはNVIDIA BigVGANの改良版で、特定のメルスペクトル入力に対して最適化されたトレーニングを行い、主にオーディオからオーディオへの変換タスクに使用され、高品質なオーディオ出力を生成できます。

モデル特徴

最適化されたメルスペクトル入力
特定の設定のメルスペクトルを入力として使用し、オーディオ生成品質を向上させる可能性があります
高PESQスコア
評価において4.340のPESQスコアを獲得し、オリジナルのNVIDIAチェックポイントの4.362点に近い
複数のメルスペクトル設定に対応
vocosライブラリで生成されたメルスペクトル特徴をサポート

モデル能力

オーディオ生成
メルスペクトル変換
高品質音声合成

使用事例

音声合成
テキスト読み上げシステム
TTSシステムのバックエンドとしてニューラルボコーダを使用
高品質な音声出力を生成
オーディオエンハンスメント
音声品質向上
低品質なオーディオの明瞭度と自然さを向上させるために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase