开源FastSpeech2 Conformer模型 - 高效将文本快速转化为高质量语音

首页

Fastspeech2 Conformer

由 espnet 开发

FastSpeech2Conformer是一个非自回归的文本转语音（TTS）模型，结合了FastSpeech2和Conformer架构的优势，能够快速高效地从文本生成高质量的语音。

语音合成

Transformers

英语开源协议:Apache-2.0 #非自回归TTS #高保真语音合成 #多语言支持

下载量 2,440

发布时间 : 6/6/2023

模型简介

该模型通过直接使用真实目标训练，解决了FastSpeech的一些限制，并引入了更多语音变化信息作为条件输入。Conformer架构在变换器块内部使用卷积来捕捉局部语音模式，而注意力层则能够捕捉输入中较远部分的关系。

模型特点

非自回归架构

相比自回归模型，生成语音速度更快

多条件输入

引入音高、能量和更准确的持续时间作为条件输入

混合架构

结合Conformer的卷积层和注意力机制，有效捕捉局部和全局语音特征

模型能力

文本转语音

高质量语音合成

快速语音生成

使用案例

语音合成

语音助手

为智能助手提供自然语音输出

有声读物

将文本内容自动转换为语音

🚀 FastSpeech2Conformer

FastSpeech2Conformer是一个非自回归的文本转语音（TTS）模型，它结合了FastSpeech2和Conformer架构的优势，能够快速高效地从文本生成高质量语音。

🚀 快速开始

你可以使用🤗 Transformers库在本地运行FastSpeech2Conformer。

首先安装🤗 Transformers库和g2p-en：

pip install --upgrade pip
pip install --upgrade transformers g2p-en

通过Transformers建模代码分别使用模型和HiFi-GAN进行推理

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerModel, FastSpeech2ConformerHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
output_dict = model(input_ids, return_dict=True)
spectrogram = output_dict["spectrogram"]

hifigan = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
waveform = hifigan(spectrogram)

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)

通过Transformers建模代码结合使用模型和HiFi-GAN进行推理

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)

使用pipeline并指定使用的声码器进行推理

from transformers import pipeline, FastSpeech2ConformerHifiGan
import soundfile as sf

vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)

speech = synthesiser("Hello, my dog is cooler than you!")

sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])

✨ 主要特性

高效生成：FastSpeech2是非自回归的TTS模型，相比自回归模型，它能显著更快地生成语音。
精准训练：直接使用真实目标训练模型，而不是使用教师模型的简化输出，解决了其前身FastSpeech的一些局限性。
丰富信息：引入更多语音变化信息（如音高、能量和更准确的时长）作为条件输入。
局部捕捉：Conformer（卷积Transformer）架构在Transformer块中使用卷积来捕捉局部语音模式，同时注意力层能够捕捉输入中更远距离的关系。

📚 详细文档

模型描述

FastSpeech2Conformer模型是由Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang在论文 Recent Developments On Espnet Toolkit Boosted By Conformer 中提出的。它首次发布于此仓库，使用的许可证是 Apache 2.0。

模型信息

属性	详情
开发者	Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang
共享者	Connor Henderson
模型类型	文本转语音
语言（NLP）	[需要更多信息]
许可证	Apache 2.0
微调自模型（可选）	[需要更多信息]