🚀 FastSpeech2Conformer
FastSpeech2Conformer是一个非自回归的文本转语音(TTS)模型,它结合了FastSpeech2和Conformer架构的优势,能够快速高效地从文本生成高质量语音。
🚀 快速开始
你可以使用🤗 Transformers库在本地运行FastSpeech2Conformer。
- 首先安装🤗 Transformers库 和g2p-en:
pip install --upgrade pip
pip install --upgrade transformers g2p-en
- 通过Transformers建模代码分别使用模型和HiFi-GAN进行推理
from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerModel, FastSpeech2ConformerHifiGan
import soundfile as sf
tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]
model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
output_dict = model(input_ids, return_dict=True)
spectrogram = output_dict["spectrogram"]
hifigan = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
waveform = hifigan(spectrogram)
sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
- 通过Transformers建模代码结合使用模型和HiFi-GAN进行推理
from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf
tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]
model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]
sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
- 使用pipeline并指定使用的声码器进行推理
from transformers import pipeline, FastSpeech2ConformerHifiGan
import soundfile as sf
vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)
speech = synthesiser("Hello, my dog is cooler than you!")
sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])
✨ 主要特性
- 高效生成:FastSpeech2是非自回归的TTS模型,相比自回归模型,它能显著更快地生成语音。
- 精准训练:直接使用真实目标训练模型,而不是使用教师模型的简化输出,解决了其前身FastSpeech的一些局限性。
- 丰富信息:引入更多语音变化信息(如音高、能量和更准确的时长)作为条件输入。
- 局部捕捉:Conformer(卷积Transformer)架构在Transformer块中使用卷积来捕捉局部语音模式,同时注意力层能够捕捉输入中更远距离的关系。
📚 详细文档
模型描述
FastSpeech2Conformer模型是由Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang在论文 Recent Developments On Espnet Toolkit Boosted By Conformer 中提出的。它首次发布于 此仓库,使用的许可证是 Apache 2.0。
模型信息
属性 |
详情 |
开发者 |
Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang |
共享者 |
Connor Henderson |
模型类型 |
文本转语音 |
语言(NLP) |
[需要更多信息] |
许可证 |
Apache 2.0 |
微调自模型(可选) |
[需要更多信息] |
模型来源
🔧 技术细节
建议
用户(直接用户和下游用户)应该了解该模型的风险、偏差和局限性。如需进一步建议,还需要更多信息。
碳排放
可以使用 Lacoste等人(2019) 提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:[需要更多信息]
- 使用时长:[需要更多信息]
- 云服务提供商:[需要更多信息]
- 计算区域:[需要更多信息]
- 碳排放量:[需要更多信息]
📄 许可证
本模型使用的许可证是 Apache 2.0。
模型卡片作者(可选)
Connor Henderson(声明:与ESPnet无关联)