bigvgan_melspecオープンソースオーディオ生成モデル - 特定のスペクトル入力でトレーニングし、無料で高品質オーディオを生成

ホーム

Bigvgan Melspec

cckmによって開発

BigVGANベースのニューラルボコーダで、特定のメルスペクトル入力を使用してトレーニングされ、高品質なオーディオ生成タスクに適しています

音声生成オープンソースライセンス:MIT #高忠実度オーディオ生成 #メルスペクトル変換 #ニューラルボコーダ最適化

ダウンロード数 16

リリース時間 : 1/11/2025

モデル概要

このモデルはNVIDIA BigVGANの改良版で、特定のメルスペクトル入力に対して最適化されたトレーニングを行い、主にオーディオからオーディオへの変換タスクに使用され、高品質なオーディオ出力を生成できます。

モデル特徴

最適化されたメルスペクトル入力

特定の設定のメルスペクトルを入力として使用し、オーディオ生成品質を向上させる可能性があります

高PESQスコア

評価において4.340のPESQスコアを獲得し、オリジナルのNVIDIAチェックポイントの4.362点に近い

複数のメルスペクトル設定に対応

vocosライブラリで生成されたメルスペクトル特徴をサポート

モデル能力

オーディオ生成

メルスペクトル変換

高品質音声合成

使用事例

音声合成

テキスト読み上げシステム

TTSシステムのバックエンドとしてニューラルボコーダを使用

高品質な音声出力を生成

オーディオエンハンスメント

音声品質向上

低品質なオーディオの明瞭度と自然さを向上させるために使用

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Bigvgan Melspec

モデル概要

モデル特徴

モデル能力

使用事例

🚀 BigVGAN with different mel spectrogram input

💻 使用例

基本的な使用法

📄 ライセンス