Bigvgan V2 24khz 100band 256x
BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプルレートとバンド構成をサポートします。
ダウンロード数 34.03k
リリース時間 : 7/15/2024
モデル概要
BigVGANは汎用ニューラルボコーダーで、メルスペクトルを高品質な波形オーディオに変換できます。大規模トレーニングと先進的なアーキテクチャ設計により、優れたオーディオ生成効果を実現しています。
モデル特徴
大規模トレーニング
多言語音声、環境音、楽器音を含む多様なオーディオデータセットを使用してトレーニングし、モデルの汎化能力を向上させます。
高性能推論
カスタムCUDAカーネルを提供し、融合アップサンプリング+活性化操作をサポートし、推論速度を1.5-3倍向上させます。
多構成サポート
複数のサンプルレート(22kHz-44kHz)とバンド構成の事前トレーニング済みモデルを提供し、さまざまなアプリケーションシナリオに対応します。
改良された識別器
マルチスケールサブバンドCQT識別器とマルチスケールメルスペクトル損失トレーニングを採用し、生成品質を向上させます。
モデル能力
メルスペクトルから波形への変換
高品質オーディオ合成
多サンプルレートサポート
高速推論
使用事例
音声合成
テキスト読み上げシステム
TTSシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声波形に変換します。
高品質で自然な音声出力を生成
オーディオエンハンスメント
オーディオ超解像度
低品質オーディオを高品質波形に変換します。
オーディオ品質と明瞭度を向上
音楽生成
楽器音合成
さまざまな楽器の音波形を生成します。
高品質な楽器音色合成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98