tts_en_fastpitch開源文本轉語音模型 - 精準控音生成高質量美式英語語音

首頁

Tts En Fastpitch

由nvidia開發

FastPitch是一種完全並行的Transformer架構文本轉語音模型，能夠控制音高和音素持續時間，生成高質量的英語美式語音。

語音合成

PyTorch

英語#並行文本轉語音 #音高可控 #即時語音合成

下載量 4,701

發布時間 : 6/28/2022

模型概述

基於Transformer的並行TTS模型，通過預測音高輪廓生成富有表現力的語音，支持即時語音合成。

模型特點

全並行架構

基於Transformer的完全並行設計，實現高效的語音合成

音高控制

可預測和調節音高輪廓，生成更具表現力的語音

即時合成

相比傳統Tacotron2模型具有更高的即時因子

無監督對齊

採用無監督的語音-文本對齊器，提高合成準確性

模型能力

英語文本轉語音

音高控制

即時語音合成

梅爾頻譜圖生成

使用案例

語音合成

語音助手

為虛擬助手生成自然流暢的語音響應

生成富有表現力的美式英語語音

有聲讀物

將文本內容轉換為語音，用於有聲讀物製作

可調節音高和語速，增強聽感體驗

🚀 NVIDIA FastPitch (en-US)

NVIDIA FastPitch (en-US) 是一款文本轉語音模型，採用全並行的Transformer架構，可對音高和單個音素持續時間進行韻律控制。它還使用了無監督的語音 - 文本對齊器，並且與NVIDIA Riva兼容，可用於生產級服務器部署。

🚀 快速開始

該模型可在NeMo工具包中使用，可作為預訓練檢查點進行推理或在其他數據集上進行微調。

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

注意：此模型僅生成頻譜圖，需要一個聲碼器將頻譜圖轉換為波形。在本示例中使用了HiFiGAN。

# Load FastPitch
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")

# Load vocoder
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")

高級用法

生成音頻

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)

保存生成的音頻文件

# Save the audio to disk in a file called speech.wav
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 22050)

輸入

該模型接受批量文本。

輸出

該模型生成梅爾頻譜圖。

📚 詳細文檔

模型架構

FastPitch是一個基於FastSpeech的全並行文本轉語音模型，以基頻輪廓為條件。該模型在推理過程中預測音高輪廓。通過改變這些預測，生成的語音可以更具表現力，更好地匹配話語的語義，最終讓聽眾更感興趣。FastPitch基於全並行的Transformer架構，在合成典型話語的梅爾頻譜圖時，其即時因子比Tacotron2高得多。它使用了無監督的語音 - 文本對齊器。