開源mms-tts-ceb文本轉語音模型 - 免費實現宿務語高質量語音合成

首頁

Mms Tts Ceb

由facebook開發

Meta公司開發的宿務語文本轉語音模型，屬於大規模多語言語音項目的一部分，支持宿務語的高質量語音合成。

語音合成

Transformers

#宿務語語音合成 #端到端TTS #多語言語音支持

下載量 696

發布時間 : 9/1/2023

模型概述

該模型是基於VITS架構的端到端文本轉語音系統，專門針對宿務語進行優化，能夠將文本輸入轉換為自然語音輸出。

模型特點

多語言支持

屬於大規模多語言語音項目的一部分，支持多種語言的語音合成。

端到端架構

採用VITS端到端架構，直接預測語音波形，簡化了傳統語音合成的流程。

表達力增強

通過隨機時長預測器和標準化流技術，能夠生成具有不同節奏和表現力的語音。

模型能力

宿務語文本轉語音

高質量語音合成

可變語音節奏生成

使用案例

語音輔助技術

宿務語語音助手

為宿務語用戶提供語音交互功能

自然流暢的宿務語語音輸出

教育技術

語言學習工具

幫助學習者練習宿務語發音

準確的宿務語發音示範

🚀 大規模多語言語音 (MMS)：宿務語文本轉語音

本倉庫包含宿務語 (ceb) 的文本轉語音 (TTS) 模型檢查點。該項目旨在為多種語言提供語音技術支持，解決不同語言語音合成的難題，為全球多語言交流提供了有力的工具。

🚀 快速開始

MMS-TTS 從 🤗 Transformers 庫的 4.33 版本起開始支持。要使用此檢查點，首先需安裝該庫的最新版本：

pip install --upgrade transformers accelerate

然後，使用以下代碼片段進行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-ceb")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ceb")

text = "some example text in the Cebuano language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成的波形可以保存為 .wav 文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

或者在 Jupyter Notebook / Google Colab 中顯示：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主要特性

VITS（基於對抗學習的端到端文本轉語音變分推理）是一種端到端語音合成模型，它能根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器（VAE），由後驗編碼器、解碼器和條件先驗組成。

聲學特徵預測：基於流的模塊會預測一組基於頻譜圖的聲學特徵，該模塊由基於 Transformer 的文本編碼器和多個耦合層組成。
頻譜圖解碼：使用一組轉置卷積層對頻譜圖進行解碼，與 HiFi - GAN 聲碼器的風格類似。
隨機時長預測：考慮到 TTS 問題的一對多性質，即相同的文本輸入可以有多種發音方式，該模型還包含一個隨機時長預測器，允許模型從相同的輸入文本合成不同節奏的語音。
端到端訓練：該模型通過結合變分下界和對抗訓練得出的損失進行端到端訓練。為提高模型的表達能力，對條件先驗分佈應用了歸一化流。
推理過程：在推理過程中，文本編碼會根據時長預測模塊進行上採樣，然後通過流模塊和 HiFi - GAN 解碼器的級聯映射到波形。由於時長預測器的隨機性，該模型具有非確定性，因此需要固定種子才能生成相同的語音波形。

📦 安裝指南

要使用此檢查點，首先安裝 🤗 Transformers 庫的最新版本：

pip install --upgrade transformers accelerate

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-ceb")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ceb")

text = "some example text in the Cebuano language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高級用法

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 詳細文檔

本模型由 Meta AI 的 Vineel Pratap 等人開發。此模型是 Facebook 大規模多語言語音項目的一部分。你可以在 MMS 語言覆蓋概述中找到有關支持語言及其 ISO 639 - 3 代碼的更多詳細信息，並在 Hugging Face Hub 上查看所有 MMS - TTS 檢查點：facebook/mms - tts。

📄 許可證

該模型採用 CC - BY - NC 4.0 許可證。

📚 引用信息

如果你使用了該模型，請考慮引用 MMS 論文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}