nvidia_tts_en_hifitts_hifigan_ft_fastpitch開源模型 - 實現多說話人英語語音合成高音質音頻

首頁

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

由Mastering-Python-HF開發

HiFiGAN是一種基於GAN的聲碼器模型，能夠從梅爾頻譜圖生成高質量音頻，支持多說話人英語語音合成。

語音合成英語#高保真語音合成 #多說話人支持 #梅爾頻譜轉換

下載量 16

發布時間 : 7/10/2023

模型概述

該模型通過轉置卷積將梅爾頻譜圖上採樣為音頻信號，主要用於文本轉語音系統的後端聲碼器部分，可與FastPitch等前端模型配合使用。

模型特點

高質量音頻生成

基於GAN架構生成自然流暢的語音波形，支持44.1kHz高採樣率

多說話人支持

內置10個不同說話人ID，可生成不同音色的語音

全並行處理

採用完全並行的Transformer架構，合成速度顯著優於傳統模型

音高控制

通過預測音高輪廓使合成語音更具表現力

模型能力

文本轉語音

梅爾頻譜圖轉換

多說話人語音生成

音高調節

使用案例

語音合成

有聲內容創作

為電子書、新聞等內容生成自然語音

支持不同音色的多說話人輸出

語音助手

為虛擬助手提供高質量的語音輸出

44.1kHz採樣率提供清晰音質

🚀 NVIDIA Hifigan聲碼器 (en-US)

HiFiGAN [1] 是一種生成對抗網絡（GAN）模型，可從梅爾頻譜圖生成音頻。生成器使用轉置卷積將梅爾頻譜圖上採樣為音頻。

🚀 快速開始

該模型可在NeMo工具包 [3] 中使用，可作為預訓練檢查點進行推理，或在其他數據集上進行微調。

要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。我們建議你在安裝最新版本的PyTorch之後再安裝它。

git clone https://github.com/NVIDIA/NeMo
cd NeMo
BRANCH = 'main'
python -m pip install git+https://github.com/NVIDIA/NeMo.git@$BRANCH#egg=nemo_toolkit[all]

✨ 主要特性

模型實例化

注意：此模型僅生成頻譜圖，需要一個聲碼器將頻譜圖轉換為波形。在這個例子中使用了HiFiGAN。

from huggingface_hub import hf_hub_download
from nemo.collections.tts.models import FastPitchModel
from nemo.collections.tts.models import HifiGanModel

REPO_ID = "Mastering-Python-HF/nvidia_tts_en_fastpitch_multispeaker"
FILENAME = "tts_en_fastpitch_multispeaker.nemo"
path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)

spec_generator = FastPitchModel.restore_from(restore_path=path)

REPO_ID = "Mastering-Python-HF/nvidia_tts_en_hifitts_hifigan_ft_fastpitch"
FILENAME = "tts_en_hifitts_hifigan_ft_fastpitch.nemo"
path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)

model = HifiGanModel.restore_from(restore_path=path)

生成並保存音頻

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
"""
說話人ID:
    92     Cori Samuel
    6097   Phil Benson
    9017   John Van Stan
    6670   Mike Pelton
    6671   Tony Oliva
    8051   Maria Kasper
    9136   Helen Taylor
    11614  Sylviamb
    11697  Celine Major
    12787  LikeManyWaters
"""
spectrogram = spec_generator.generate_spectrogram(tokens=parsed,speaker=92)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 44100)

Colab示例

鏈接 : nvidia_tts_en_fastpitch_multispeaker

輸入

此模型接受批量文本。

輸出

此模型生成梅爾頻譜圖。

📚 詳細文檔

模型架構

FastPitch多說話人是一種基於FastSpeech的全並行文本轉語音模型，以基頻輪廓為條件。該模型在推理過程中預測音高輪廓。通過改變這些預測，生成的語音可以更具表現力，更好地匹配話語的語義，最終讓聽眾更感興趣。FastPitch基於全並行Transformer架構，在典型話語的梅爾頻譜圖合成方面，其即時因子比Tacotron2高得多。它使用了一個無監督的語音 - 文本對齊器。