tts-hifigan-german開源聲碼器 - 免費部署助力德語語音合成

首頁

Tts Hifigan German

由padmalcom開發

一個基於HiFIGAN架構的聲碼器，用於將頻譜圖轉換為波形，專門針對德語語音合成任務訓練

語音合成德語開源協議:Apache-2.0 #德語語音合成 #HiFIGAN聲碼器 #TTS後端處理

下載量 84

發布時間 : 11/4/2022

模型概述

該模型是HiFIGAN聲碼器的實現，用於文本轉語音(TTS)系統中的波形生成階段。它接收頻譜圖作為輸入，輸出高質量的語音波形。

模型特點

高質量語音合成

基於HiFIGAN架構，能夠生成高質量的語音波形

德語優化

專門在德語數據集上訓練，針對德語語音特性進行了優化

與TTS模型兼容

設計用於與TTS模型(如Tacotron2)配合使用，完成端到端語音合成

模型能力

頻譜圖轉波形

高質量語音生成

德語語音合成

使用案例

語音合成系統

德語TTS系統

與Tacotron2等TTS模型結合，構建完整的德語文本轉語音系統

生成自然流暢的德語語音

語音助手

用於德語語音助手的語音生成模塊

🚀 基於自定義德語數據集訓練的HiFIGAN聲碼器

本倉庫提供了使用基於自定義德語數據集訓練的 HiFIGAN 聲碼器所需的所有工具。該數據集使用 mp3_to_training_data 生成。

預訓練模型（目前已訓練8個輪次）以頻譜圖作為輸入，並輸出波形。通常，聲碼器會在將輸入文本轉換為頻譜圖的TTS模型之後使用。

🚀 快速開始

✨ 主要特性

基於自定義德語數據集訓練的HiFIGAN聲碼器。
可與TTS模型配合使用，將頻譜圖轉換為音頻。
支持在GPU上進行推理。

📦 安裝指南

安裝SpeechBrain庫：

pip install speechbrain

💻 使用示例

基礎用法

使用TTS模型（例如 tts-tacotron-german）生成頻譜圖並將其轉換為音頻：

import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN

tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts")
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder")

mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")

waveforms = hifi_gan.decode_batch(mel_output)

torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)

高級用法

在GPU上進行推理

若要在GPU上進行推理，在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}：

import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN

tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts", run_opts={"device":"cuda"})
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder", run_opts={"device":"cuda"})

mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")

waveforms = hifi_gan.decode_batch(mel_output)

torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)