開源mms - tts - ron羅馬尼亞語文本轉語音模型，實現高質量語音合成！

首頁

Mms Tts Ron

由facebook開發

Meta公司開發的羅馬尼亞語文本轉語音模型，採用VITS架構，支持高質量語音合成

語音合成

Transformers

#羅馬尼亞語TTS #VITS架構 #多語言語音合成

下載量 3,822

發布時間 : 9/1/2023

模型概述

該模型是Meta大規模多語言語音計劃的一部分，專門用於羅馬尼亞語的文本轉語音合成，基於VITS架構實現端到端語音生成

模型特點

端到端語音合成

採用VITS架構實現從文本到波形的直接轉換，無需單獨訓練聲碼器

多語言支持

作為MMS項目的一部分，專門為羅馬尼亞語優化

變分推理對抗學習

結合變分自編碼器和對抗訓練，提高語音質量和自然度

隨機時長預測

支持相同文本生成不同節奏的語音，增加語音多樣性

模型能力

羅馬尼亞語文本轉語音

高質量語音合成

可變語音節奏生成

使用案例

語音助手

羅馬尼亞語語音助手

為羅馬尼亞語用戶提供自然語音交互

生成自然流暢的羅馬尼亞語語音響應

無障礙技術

文本朗讀服務

為視障人士提供羅馬尼亞語文本朗讀功能

將書面內容轉換為清晰可懂的語音輸出

教育技術

語言學習工具

幫助學習者練習羅馬尼亞語發音

提供準確的羅馬尼亞語發音示範

🚀 大規模多語言語音（MMS）：羅馬尼亞語文字轉語音

本倉庫包含羅馬尼亞語（ron） 的文字轉語音（TTS）模型檢查點。該模型是Facebook 大規模多語言語音項目的一部分，旨在為多種語言提供語音技術。你可以在MMS語言覆蓋概述中找到更多關於支持語言及其ISO 639 - 3代碼的詳細信息，並在Hugging Face Hub上查看所有MMS - TTS檢查點：[facebook/mms - tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms - tts)。

從🤗 Transformers庫的4.33版本起，MMS - TTS就已可用。

✨ 主要特性

本模型屬於大規模多語言語音項目，支持羅馬尼亞語的文字轉語音功能。
基於VITS模型架構，能夠根據輸入文本序列預測語音波形。
模型包含隨機時長預測器，可從相同輸入文本合成不同節奏的語音。
模型經過端到端訓練，結合了變分下界和對抗訓練的損失函數。

📦 安裝指南

MMS - TTS從🤗 Transformers庫的4.33版本起可用。要使用此檢查點，首先需要安裝該庫的最新版本：

pip install --upgrade transformers accelerate

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-ron")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ron")

text = "some example text in the Romanian language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高級用法

將生成的波形保存為.wav文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

或者在Jupyter Notebook / Google Colab中顯示：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

🔧 技術細節

VITS（Variational Inference with adversarial learning for end - to - end Text - to - Speech）是一種端到端語音合成模型，它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器（VAE），由後驗編碼器、解碼器和條件先驗組成。

基於頻譜圖的聲學特徵集由基於流的模塊預測，該模塊由基於Transformer的文本編碼器和多個耦合層組成。頻譜圖使用一系列轉置卷積層進行解碼，與HiFi - GAN聲碼器的方式非常相似。由於TTS問題具有一對多的性質，即相同的文本輸入可以有多種發音方式，該模型還包括一個隨機時長預測器，允許模型從相同的輸入文本合成不同節奏的語音。

該模型通過結合變分下界和對抗訓練產生的損失進行端到端訓練。為了提高模型的表達能力，對條件先驗分佈應用了歸一化流。在推理過程中，文本編碼根據時長預測模塊進行上採樣，然後通過流模塊和HiFi - GAN解碼器的級聯映射到波形。由於時長預測器的隨機性，該模型是非確定性的，因此需要固定種子才能生成相同的語音波形。

對於MMS項目，每種語言都單獨訓練一個VITS檢查點。

📚 詳細文檔

BibTex引用

該模型由Meta AI的Vineel Pratap等人開發。如果你使用該模型，請考慮引用MMS論文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}