N

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

Developed by Mastering-Python-HF
HiFiGAN是一種基於GAN的聲碼器模型,能夠從梅爾頻譜圖生成高質量音頻,支持多說話人英語語音合成。
Downloads 16
Release Time : 7/10/2023

Model Overview

該模型通過轉置卷積將梅爾頻譜圖上採樣為音頻信號,主要用於文本轉語音系統的後端聲碼器部分,可與FastPitch等前端模型配合使用。

Model Features

高質量音頻生成
基於GAN架構生成自然流暢的語音波形,支持44.1kHz高採樣率
多說話人支持
內置10個不同說話人ID,可生成不同音色的語音
全並行處理
採用完全並行的Transformer架構,合成速度顯著優於傳統模型
音高控制
通過預測音高輪廓使合成語音更具表現力

Model Capabilities

文本轉語音
梅爾頻譜圖轉換
多說話人語音生成
音高調節

Use Cases

語音合成
有聲內容創作
為電子書、新聞等內容生成自然語音
支持不同音色的多說話人輸出
語音助手
為虛擬助手提供高質量的語音輸出
44.1kHz採樣率提供清晰音質
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase