N

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

由Mastering-Python-HF開發
HiFiGAN是一種基於GAN的聲碼器模型,能夠從梅爾頻譜圖生成高質量音頻,支持多說話人英語語音合成。
下載量 16
發布時間 : 7/10/2023

模型概述

該模型通過轉置卷積將梅爾頻譜圖上採樣為音頻信號,主要用於文本轉語音系統的後端聲碼器部分,可與FastPitch等前端模型配合使用。

模型特點

高質量音頻生成
基於GAN架構生成自然流暢的語音波形,支持44.1kHz高採樣率
多說話人支持
內置10個不同說話人ID,可生成不同音色的語音
全並行處理
採用完全並行的Transformer架構,合成速度顯著優於傳統模型
音高控制
通過預測音高輪廓使合成語音更具表現力

模型能力

文本轉語音
梅爾頻譜圖轉換
多說話人語音生成
音高調節

使用案例

語音合成
有聲內容創作
為電子書、新聞等內容生成自然語音
支持不同音色的多說話人輸出
語音助手
為虛擬助手提供高質量的語音輸出
44.1kHz採樣率提供清晰音質
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase