Meta開源英語語音合成模型english_voice_tts - 免費實現高質量文本轉語音

首頁

English Voice Tts

由Baghdad99開發

Meta公司開發的英語文本轉語音模型，基於VITS架構，支持高質量語音合成

語音合成

Transformers

#端到端語音合成 #變分推理TTS #多語言支持

下載量 48

發布時間 : 11/17/2023

模型概述

基於VITS架構的端到端英語文本轉語音模型，能夠根據輸入文本生成自然語音波形，屬於Meta大規模多語言語音(MMS)項目的一部分

模型特點

端到端語音合成

直接從文本生成語音波形，無需中間特徵提取步驟

變分推理與對抗訓練

結合變分下界損失和對抗訓練進行端到端訓練，提高語音質量

隨機時長預測

支持從相同文本生成不同節奏的語音，增強表現力

多語言支持

作為MMS項目的一部分，支持多種語言的獨立模型

模型能力

英語文本轉語音

高質量語音合成

可變節奏語音生成

使用案例

語音輔助技術

語音助手

為智能助手提供自然語音輸出

生成接近人類發音的語音

無障礙技術

文本朗讀

為視障用戶朗讀文本內容

提供清晰自然的語音輸出

內容創作

有聲內容製作

自動生成播客、有聲書等內容的語音

快速生成專業級語音內容

🚀 大規模多語言語音（MMS）：英文文本轉語音

本項目包含英文（eng）的文本轉語音（TTS）模型檢查點。該模型旨在提供跨多種語言的語音技術，解決了多語言語音合成的難題，為不同語言的語音交互提供了有力支持。

🚀 快速開始

MMS - TTS 從 🤗 Transformers 庫的 4.33 版本開始可用。要使用此檢查點，首先安裝該庫的最新版本：

pip install --upgrade transformers accelerate

然後，使用以下代碼片段進行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-eng")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")

text = "some example text in the English language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成的波形可以保存為 .wav 文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output.float().numpy())

或者在 Jupyter Notebook / Google Colab 中展示：

from IPython.display import Audio

Audio(output.numpy(), rate=model.config.sampling_rate)

✨ 主要特性

本項目基於 Facebook 的大規模多語言語音項目，旨在提供跨多種語言的語音技術。你可以在 MMS 語言覆蓋概述中找到更多關於支持語言及其 ISO 639 - 3 代碼的詳細信息，並在 Hugging Face Hub 上查看所有 MMS - TTS 檢查點：[facebook/mms - tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms - tts)。

📚 詳細文檔

模型詳情

VITS（基於對抗學習的端到端文本轉語音變分推理）是一種端到端的語音合成模型，它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器（VAE），由後驗編碼器、解碼器和條件先驗組成。

基於流的模塊會預測一組基於頻譜圖的聲學特徵，該模塊由基於 Transformer 的文本編碼器和多個耦合層組成。頻譜圖使用一組轉置卷積層進行解碼，與 HiFi - GAN 聲碼器的風格非常相似。考慮到 TTS 問題的一對多性質，即相同的文本輸入可以有多種不同的發音方式，該模型還包含一個隨機持續時間預測器，允許模型從相同的輸入文本合成具有不同節奏的語音。

該模型通過結合變分下界和對抗訓練得出的損失函數進行端到端訓練。為了提高模型的表達能力，對條件先驗分佈應用了歸一化流。在推理過程中，文本編碼會根據持續時間預測模塊進行上採樣，然後通過流模塊和 HiFi - GAN 解碼器的級聯映射到波形。由於持續時間預測器的隨機性，該模型是非確定性的，因此需要固定種子才能生成相同的語音波形。

對於 MMS 項目，會針對每種語言分別訓練一個 VITS 檢查點。

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-eng")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")

text = "some example text in the English language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高級用法

保存為音頻文件

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output.float().numpy())

在 Jupyter Notebook / Google Colab 中展示

from IPython.display import Audio

Audio(output.numpy(), rate=model.config.sampling_rate)

📄 許可證

該模型遵循 CC - BY - NC 4.0 許可協議。

📚 引用信息

此模型由 Meta AI 的 Vineel Pratap 等人開發。如果使用該模型，請考慮引用 MMS 論文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}