nvidia_tts_en_hifitts_hifigan_ft_fastpitch开源模型 - 实现多说话人英语语音合成高音质音频

首页

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

由 Mastering-Python-HF 开发

HiFiGAN是一种基于GAN的声码器模型，能够从梅尔频谱图生成高质量音频，支持多说话人英语语音合成。

语音合成英语#高保真语音合成 #多说话人支持 #梅尔频谱转换

下载量 16

发布时间 : 7/10/2023

模型简介

该模型通过转置卷积将梅尔频谱图上采样为音频信号，主要用于文本转语音系统的后端声码器部分，可与FastPitch等前端模型配合使用。

模型特点

高质量音频生成

基于GAN架构生成自然流畅的语音波形，支持44.1kHz高采样率

多说话人支持

内置10个不同说话人ID，可生成不同音色的语音

全并行处理

采用完全并行的Transformer架构，合成速度显著优于传统模型

音高控制

通过预测音高轮廓使合成语音更具表现力

模型能力

文本转语音

梅尔频谱图转换

多说话人语音生成

音高调节

使用案例

语音合成

有声内容创作

为电子书、新闻等内容生成自然语音

支持不同音色的多说话人输出

语音助手

为虚拟助手提供高质量的语音输出

44.1kHz采样率提供清晰音质

🚀 NVIDIA Hifigan声码器 (en-US)

HiFiGAN [1] 是一种生成对抗网络（GAN）模型，可从梅尔频谱图生成音频。生成器使用转置卷积将梅尔频谱图上采样为音频。

🚀 快速开始

该模型可在NeMo工具包 [3] 中使用，可作为预训练检查点进行推理，或在其他数据集上进行微调。

要训练、微调或使用该模型，你需要安装NVIDIA NeMo。我们建议你在安装最新版本的PyTorch之后再安装它。

git clone https://github.com/NVIDIA/NeMo
cd NeMo
BRANCH = 'main'
python -m pip install git+https://github.com/NVIDIA/NeMo.git@$BRANCH#egg=nemo_toolkit[all]

✨ 主要特性

模型实例化

注意：此模型仅生成频谱图，需要一个声码器将频谱图转换为波形。在这个例子中使用了HiFiGAN。

from huggingface_hub import hf_hub_download
from nemo.collections.tts.models import FastPitchModel
from nemo.collections.tts.models import HifiGanModel

REPO_ID = "Mastering-Python-HF/nvidia_tts_en_fastpitch_multispeaker"
FILENAME = "tts_en_fastpitch_multispeaker.nemo"
path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)

spec_generator = FastPitchModel.restore_from(restore_path=path)

REPO_ID = "Mastering-Python-HF/nvidia_tts_en_hifitts_hifigan_ft_fastpitch"
FILENAME = "tts_en_hifitts_hifigan_ft_fastpitch.nemo"
path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)

model = HifiGanModel.restore_from(restore_path=path)

生成并保存音频

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
"""
说话人ID:
    92     Cori Samuel
    6097   Phil Benson
    9017   John Van Stan
    6670   Mike Pelton
    6671   Tony Oliva
    8051   Maria Kasper
    9136   Helen Taylor
    11614  Sylviamb
    11697  Celine Major
    12787  LikeManyWaters
"""
spectrogram = spec_generator.generate_spectrogram(tokens=parsed,speaker=92)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 44100)

Colab示例

链接 : nvidia_tts_en_fastpitch_multispeaker

输入

此模型接受批量文本。

输出

此模型生成梅尔频谱图。

📚 详细文档

模型架构

FastPitch多说话人是一种基于FastSpeech的全并行文本转语音模型，以基频轮廓为条件。该模型在推理过程中预测音高轮廓。通过改变这些预测，生成的语音可以更具表现力，更好地匹配话语的语义，最终让听众更感兴趣。FastPitch基于全并行Transformer架构，在典型话语的梅尔频谱图合成方面，其实时因子比Tacotron2高得多。它使用了一个无监督的语音 - 文本对齐器。