🚀 FastSpeech2Conformer
FastSpeech2Conformer是一個非自迴歸的文本轉語音(TTS)模型,它結合了FastSpeech2和Conformer架構的優勢,能夠快速高效地從文本生成高質量語音。
🚀 快速開始
你可以使用🤗 Transformers庫在本地運行FastSpeech2Conformer。
- 首先安裝🤗 Transformers庫 和g2p-en:
pip install --upgrade pip
pip install --upgrade transformers g2p-en
- 通過Transformers建模代碼分別使用模型和HiFi-GAN進行推理
from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerModel, FastSpeech2ConformerHifiGan
import soundfile as sf
tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]
model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
output_dict = model(input_ids, return_dict=True)
spectrogram = output_dict["spectrogram"]
hifigan = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
waveform = hifigan(spectrogram)
sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
- 通過Transformers建模代碼結合使用模型和HiFi-GAN進行推理
from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf
tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]
model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]
sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
- 使用pipeline並指定使用的聲碼器進行推理
from transformers import pipeline, FastSpeech2ConformerHifiGan
import soundfile as sf
vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)
speech = synthesiser("Hello, my dog is cooler than you!")
sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])
✨ 主要特性
- 高效生成:FastSpeech2是非自迴歸的TTS模型,相比自迴歸模型,它能顯著更快地生成語音。
- 精準訓練:直接使用真實目標訓練模型,而不是使用教師模型的簡化輸出,解決了其前身FastSpeech的一些侷限性。
- 豐富信息:引入更多語音變化信息(如音高、能量和更準確的時長)作為條件輸入。
- 局部捕捉:Conformer(卷積Transformer)架構在Transformer塊中使用卷積來捕捉局部語音模式,同時注意力層能夠捕捉輸入中更遠距離的關係。
📚 詳細文檔
模型描述
FastSpeech2Conformer模型是由Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang在論文 Recent Developments On Espnet Toolkit Boosted By Conformer 中提出的。它首次發佈於 此倉庫,使用的許可證是 Apache 2.0。
模型信息
屬性 |
詳情 |
開發者 |
Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia - Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang和Yuekai Zhang |
共享者 |
Connor Henderson |
模型類型 |
文本轉語音 |
語言(NLP) |
[需要更多信息] |
許可證 |
Apache 2.0 |
微調自模型(可選) |
[需要更多信息] |
模型來源
🔧 技術細節
建議
用戶(直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。如需進一步建議,還需要更多信息。
碳排放
可以使用 Lacoste等人(2019) 提出的 機器學習影響計算器 來估算碳排放。
- 硬件類型:[需要更多信息]
- 使用時長:[需要更多信息]
- 雲服務提供商:[需要更多信息]
- 計算區域:[需要更多信息]
- 碳排放量:[需要更多信息]
📄 許可證
本模型使用的許可證是 Apache 2.0。
模型卡片作者(可選)
Connor Henderson(聲明:與ESPnet無關聯)