🚀 基於自定義德語數據集訓練的HiFIGAN聲碼器
本倉庫提供了使用基於自定義德語數據集訓練的 HiFIGAN 聲碼器所需的所有工具。該數據集使用 mp3_to_training_data 生成。
預訓練模型(目前已訓練8個輪次)以頻譜圖作為輸入,並輸出波形。通常,聲碼器會在將輸入文本轉換為頻譜圖的TTS模型之後使用。
🚀 快速開始
✨ 主要特性
- 基於自定義德語數據集訓練的HiFIGAN聲碼器。
- 可與TTS模型配合使用,將頻譜圖轉換為音頻。
- 支持在GPU上進行推理。
📦 安裝指南
安裝SpeechBrain庫:
pip install speechbrain
💻 使用示例
基礎用法
使用TTS模型(例如 tts-tacotron-german)生成頻譜圖並將其轉換為音頻:
import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN
tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts")
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder")
mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")
waveforms = hifi_gan.decode_batch(mel_output)
torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)
高級用法
在GPU上進行推理
若要在GPU上進行推理,在調用 from_hparams
方法時添加 run_opts={"device":"cuda"}
:
import torchaudio
from speechbrain.pretrained import Tacotron2
from speechbrain.pretrained import HIFIGAN
tacotron2 = Tacotron2.from_hparams(source="padmalcom/tts-tacotron2-german", savedir="tmpdir_tts", run_opts={"device":"cuda"})
hifi_gan = HIFIGAN.from_hparams(source="padmalcom/tts-hifigan-german", savedir="tmpdir_vocoder", run_opts={"device":"cuda"})
mel_output, mel_length, alignment = tacotron2.encode_text("Mary had a little lamb")
waveforms = hifi_gan.decode_batch(mel_output)
torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)
📄 許可證
本項目採用 Apache 2.0 許可證。
信息表格
屬性 |
詳情 |
模型類型 |
基於HiFIGAN的聲碼器 |
訓練數據 |
自定義德語數據集 |
許可證 |
Apache 2.0 |