N

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

Mastering-Python-HFによって開発
HiFiGANはGANベースのボコーダーモデルで、メルスペクトログラムから高品質な音声を生成でき、マルチスピーカーの英語音声合成をサポートします。
ダウンロード数 16
リリース時間 : 7/10/2023

モデル概要

このモデルは転置畳み込みによりメルスペクトログラムを音声信号にアップサンプリングし、主にテキスト読み上げシステムのバックエンドボコーダーとして使用され、FastPitchなどのフロントエンドモデルと連携できます。

モデル特徴

高品質音声生成
GANアーキテクチャに基づき自然で滑らかな音声波形を生成、44.1kHzの高サンプリングレートをサポート
マルチスピーカー対応
10種類の異なるスピーカーIDを内蔵し、様々な音色の音声を生成可能
完全並列処理
完全並列のTransformerアーキテクチャを採用し、従来モデルよりも合成速度が大幅に向上
ピッチ制御
ピッチ輪郭を予測することで、より表現力豊かな合成音声を実現

モデル能力

テキスト読み上げ
メルスペクトログラム変換
マルチスピーカー音声生成
ピッチ調整

使用事例

音声合成
オーディオコンテンツ制作
電子書籍やニュースなどのコンテンツに自然な音声を生成
異なる音色のマルチスピーカー出力をサポート
音声アシスタント
仮想アシスタントに高品質な音声出力を提供
44.1kHzサンプリングレートでクリアな音質を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase