tts_en_fastpitch开源文本转语音模型 - 精准控音生成高质量美式英语语音

首页

Tts En Fastpitch

由 nvidia 开发

FastPitch是一种完全并行的Transformer架构文本转语音模型，能够控制音高和音素持续时间，生成高质量的英语美式语音。

语音合成

PyTorch

英语#并行文本转语音 #音高可控 #实时语音合成

下载量 4,701

发布时间 : 6/28/2022

模型简介

基于Transformer的并行TTS模型，通过预测音高轮廓生成富有表现力的语音，支持实时语音合成。

模型特点

全并行架构

基于Transformer的完全并行设计，实现高效的语音合成

音高控制

可预测和调节音高轮廓，生成更具表现力的语音

实时合成

相比传统Tacotron2模型具有更高的实时因子

无监督对齐

采用无监督的语音-文本对齐器，提高合成准确性

模型能力

英语文本转语音

音高控制

实时语音合成

梅尔频谱图生成

使用案例

语音合成

语音助手

为虚拟助手生成自然流畅的语音响应

生成富有表现力的美式英语语音

有声读物

将文本内容转换为语音，用于有声读物制作

可调节音高和语速，增强听感体验

🚀 NVIDIA FastPitch (en-US)

NVIDIA FastPitch (en-US) 是一款文本转语音模型，采用全并行的Transformer架构，可对音高和单个音素持续时间进行韵律控制。它还使用了无监督的语音 - 文本对齐器，并且与NVIDIA Riva兼容，可用于生产级服务器部署。

🚀 快速开始

该模型可在NeMo工具包中使用，可作为预训练检查点进行推理或在其他数据集上进行微调。

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

注意：此模型仅生成频谱图，需要一个声码器将频谱图转换为波形。在本示例中使用了HiFiGAN。

# Load FastPitch
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")

# Load vocoder
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")

高级用法

生成音频

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)

保存生成的音频文件

# Save the audio to disk in a file called speech.wav
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 22050)

输入

该模型接受批量文本。

输出

该模型生成梅尔频谱图。

📚 详细文档

模型架构

FastPitch是一个基于FastSpeech的全并行文本转语音模型，以基频轮廓为条件。该模型在推理过程中预测音高轮廓。通过改变这些预测，生成的语音可以更具表现力，更好地匹配话语的语义，最终让听众更感兴趣。FastPitch基于全并行的Transformer架构，在合成典型话语的梅尔频谱图时，其实时因子比Tacotron2高得多。它使用了无监督的语音 - 文本对齐器。