tts-hifigan-german开源声码器 - 免费部署助力德语语音合成

首页

Tts Hifigan German

由 padmalcom 开发

一个基于HiFIGAN架构的声码器，用于将频谱图转换为波形，专门针对德语语音合成任务训练

语音合成德语开源协议:Apache-2.0 #德语语音合成 #HiFIGAN声码器 #TTS后端处理

下载量 84

发布时间 : 11/4/2022

模型简介

该模型是HiFIGAN声码器的实现，用于文本转语音(TTS)系统中的波形生成阶段。它接收频谱图作为输入，输出高质量的语音波形。

模型特点

高质量语音合成

基于HiFIGAN架构，能够生成高质量的语音波形

德语优化

专门在德语数据集上训练，针对德语语音特性进行了优化

与TTS模型兼容

设计用于与TTS模型(如Tacotron2)配合使用，完成端到端语音合成

模型能力

频谱图转波形

高质量语音生成

德语语音合成

使用案例

语音合成系统

德语TTS系统

与Tacotron2等TTS模型结合，构建完整的德语文本转语音系统

生成自然流畅的德语语音

语音助手

用于德语语音助手的语音生成模块

🚀 基于自定义德语数据集训练的HiFIGAN声码器

本仓库提供了使用基于自定义德语数据集训练的 HiFIGAN 声码器所需的所有工具。该数据集使用 mp3_to_training_data 生成。

预训练模型（目前已训练8个轮次）以频谱图作为输入，并输出波形。通常，声码器会在将输入文本转换为频谱图的TTS模型之后使用。

🚀 快速开始

✨ 主要特性

基于自定义德语数据集训练的HiFIGAN声码器。
可与TTS模型配合使用，将频谱图转换为音频。
支持在GPU上进行推理。

📦 安装指南

安装SpeechBrain库：

pip install speechbrain

💻 使用示例

基础用法

使用TTS模型（例如 tts-tacotron-german）生成频谱图并将其转换为音频：

import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN

tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts")
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder")

mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")

waveforms = hifi_gan.decode_batch(mel_output)

torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)

高级用法

在GPU上进行推理

若要在GPU上进行推理，在调用 from_hparams 方法时添加 run_opts={"device":"cuda"}：

import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN

tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts", run_opts={"device":"cuda"})
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder", run_opts={"device":"cuda"})

mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")

waveforms = hifi_gan.decode_batch(mel_output)

torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)