開源FastSpeech2 Conformer模型 - 高效將文本快速轉化為高質量語音

首頁

Fastspeech2 Conformer

由espnet開發

FastSpeech2Conformer是一個非自迴歸的文本轉語音（TTS）模型，結合了FastSpeech2和Conformer架構的優勢，能夠快速高效地從文本生成高質量的語音。

語音合成

Transformers

英語開源協議:Apache-2.0 #非自迴歸TTS #高保真語音合成 #多語言支持

下載量 2,440

發布時間 : 6/6/2023

模型概述

該模型通過直接使用真實目標訓練，解決了FastSpeech的一些限制，並引入了更多語音變化信息作為條件輸入。Conformer架構在變換器塊內部使用卷積來捕捉局部語音模式，而注意力層則能夠捕捉輸入中較遠部分的關係。

模型特點

非自迴歸架構

相比自迴歸模型，生成語音速度更快

多條件輸入

引入音高、能量和更準確的持續時間作為條件輸入

混合架構

結合Conformer的卷積層和注意力機制，有效捕捉局部和全局語音特徵

模型能力

文本轉語音

高質量語音合成

快速語音生成

使用案例

語音合成

語音助手

為智能助手提供自然語音輸出

有聲讀物

將文本內容自動轉換為語音

🚀 FastSpeech2Conformer

FastSpeech2Conformer是一個非自迴歸的文本轉語音（TTS）模型，它結合了FastSpeech2和Conformer架構的優勢，能夠快速高效地從文本生成高質量語音。

🚀 快速開始

你可以使用🤗 Transformers庫在本地運行FastSpeech2Conformer。

首先安裝🤗 Transformers庫和g2p-en：

pip install --upgrade pip
pip install --upgrade transformers g2p-en

通過Transformers建模代碼分別使用模型和HiFi-GAN進行推理

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerModel, FastSpeech2ConformerHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
output_dict = model(input_ids, return_dict=True)
spectrogram = output_dict["spectrogram"]

hifigan = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
waveform = hifigan(spectrogram)

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)

通過Transformers建模代碼結合使用模型和HiFi-GAN進行推理

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)

使用pipeline並指定使用的聲碼器進行推理

from transformers import pipeline, FastSpeech2ConformerHifiGan
import soundfile as sf

vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)

speech = synthesiser("Hello, my dog is cooler than you!")

sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])

✨ 主要特性

高效生成：FastSpeech2是非自迴歸的TTS模型，相比自迴歸模型，它能顯著更快地生成語音。
精準訓練：直接使用真實目標訓練模型，而不是使用教師模型的簡化輸出，解決了其前身FastSpeech的一些侷限性。
豐富信息：引入更多語音變化信息（如音高、能量和更準確的時長）作為條件輸入。
局部捕捉：Conformer（卷積Transformer）架構在Transformer塊中使用卷積來捕捉局部語音模式，同時注意力層能夠捕捉輸入中更遠距離的關係。

📚 詳細文檔

模型描述

FastSpeech2Conformer模型是由Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang在論文 Recent Developments On Espnet Toolkit Boosted By Conformer 中提出的。它首次發佈於此倉庫，使用的許可證是 Apache 2.0。

模型信息

屬性	詳情
開發者	Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang
共享者	Connor Henderson
模型類型	文本轉語音
語言（NLP）	[需要更多信息]
許可證	Apache 2.0
微調自模型（可選）	[需要更多信息]