mms-tts-lat開源拉丁語文本轉語音模型 - 免費實現高質量語音合成

首頁

Mms Tts Lat

由facebook開發

Meta公司開發的拉丁語文本轉語音模型，基於VITS架構，支持高質量語音合成

語音合成

Transformers

#拉丁語TTS #多語言語音合成 #VITS架構

下載量 90

發布時間 : 9/1/2023

模型概述

該模型是Meta大規模多語言語音(MMS)項目的一部分，專門用於拉丁語的文本轉語音合成。採用VITS端到端架構，能夠生成自然流暢的語音。

模型特點

端到端語音合成

基於VITS架構，直接從文本生成語音波形，無需中間特徵提取

多語言支持

作為MMS項目的一部分，支持包括拉丁語在內的多種語言

表達力豐富

通過隨機時長預測器和條件變分自編碼器實現多樣化的語音輸出

高質量語音

採用類似HiFi-GAN的聲碼器結構，生成高質量的語音波形

模型能力

拉丁語文本轉語音

語音合成

多樣化語音生成

使用案例

教育

拉丁語學習輔助

為拉丁語學習者提供發音示範

幫助學習者掌握正確的拉丁語發音

文化遺產保護

古籍文本語音化

將拉丁語古籍文本轉換為語音

使古籍內容更易訪問和理解

🚀 大規模多語言語音 (MMS)：拉丁語文本轉語音

本項目提供了一個基於大規模多語言語音（MMS）技術的拉丁語文本轉語音（TTS）模型。該模型能夠將輸入的拉丁語文本轉換為自然流暢的語音輸出，為拉丁語的語音合成提供了高效、準確的解決方案。

🚀 快速開始

MMS-TTS 從 🤗 Transformers 庫的 4.33 版本開始可用。要使用此檢查點，首先需要安裝該庫的最新版本：

pip install --upgrade transformers accelerate

然後，使用以下代碼片段進行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-lat")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-lat")

text = "some example text in the Latin language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成的波形可以保存為 .wav 文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

或者在 Jupyter Notebook / Google Colab 中顯示：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主要特性

多語言支持：作為 MMS 項目的一部分，該模型支持多種語言，為全球用戶提供了廣泛的語音合成選擇。
高質量語音合成：基於 VITS 架構，模型能夠生成自然、流暢的語音，具有較高的音質和表現力。
隨機節奏生成：模型中的隨機時長預測器允許從相同的輸入文本合成具有不同節奏的語音，增加了語音的自然度和多樣性。

📚 詳細文檔

模型細節

VITS（變分推理端到端文本到語音）是一種端到端的語音合成模型，它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器（VAE），由後驗編碼器、解碼器和條件先驗組成。

基於流的模塊預測一組基於頻譜圖的聲學特徵，該模塊由基於 Transformer 的文本編碼器和多個耦合層組成。頻譜圖使用一組轉置卷積層進行解碼，與 HiFi - GAN 聲碼器的風格非常相似。考慮到 TTS 問題的一對多性質，即相同的文本輸入可以有多種發音方式，該模型還包括一個隨機時長預測器，允許模型從相同的輸入文本合成具有不同節奏的語音。

該模型通過結合變分下界和對抗訓練得出的損失進行端到端訓練。為了提高模型的表現力，對條件先驗分佈應用了歸一化流。在推理過程中，文本編碼根據時長預測模塊進行上採樣，然後通過流模塊和 HiFi - GAN 解碼器的級聯映射到波形。由於時長預測器的隨機性質，該模型是非確定性的，因此需要固定種子才能生成相同的語音波形。

對於 MMS 項目，每種語言都訓練了一個單獨的 VITS 檢查點。

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-lat")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-lat")

text = "some example text in the Latin language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高級用法

import scipy
import torch
from transformers import VitsModel, AutoTokenizer
from IPython.display import Audio

model = VitsModel.from_pretrained("facebook/mms-tts-lat")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-lat")

text = "some example text in the Latin language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

# 保存為.wav文件
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

# 在Jupyter Notebook / Google Colab中顯示
Audio(output, rate=model.config.sampling_rate)

📄 許可證

該模型遵循 CC - BY - NC 4.0 許可證。

📚 BibTex引用

此模型由 Meta AI 的 Vineel Pratap 等人開發。如果您使用該模型，請考慮引用 MMS 論文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}