🚀 大規模多語言語音(MMS):羅馬尼亞語文字轉語音
本倉庫包含羅馬尼亞語(ron) 的文字轉語音(TTS)模型檢查點。該模型是Facebook 大規模多語言語音項目的一部分,旨在為多種語言提供語音技術。你可以在MMS語言覆蓋概述中找到更多關於支持語言及其ISO 639 - 3代碼的詳細信息,並在Hugging Face Hub上查看所有MMS - TTS檢查點:[facebook/mms - tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms - tts)。
從🤗 Transformers庫的4.33版本起,MMS - TTS就已可用。
✨ 主要特性
- 本模型屬於大規模多語言語音項目,支持羅馬尼亞語的文字轉語音功能。
- 基於VITS模型架構,能夠根據輸入文本序列預測語音波形。
- 模型包含隨機時長預測器,可從相同輸入文本合成不同節奏的語音。
- 模型經過端到端訓練,結合了變分下界和對抗訓練的損失函數。
📦 安裝指南
MMS - TTS從🤗 Transformers庫的4.33版本起可用。要使用此檢查點,首先需要安裝該庫的最新版本:
pip install --upgrade transformers accelerate
💻 使用示例
基礎用法
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("facebook/mms-tts-ron")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ron")
text = "some example text in the Romanian language"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
高級用法
將生成的波形保存為.wav
文件:
import scipy
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)
或者在Jupyter Notebook / Google Colab中顯示:
from IPython.display import Audio
Audio(output, rate=model.config.sampling_rate)
🔧 技術細節
VITS(Variational Inference with adversarial learning for end - to - end Text - to - Speech)是一種端到端語音合成模型,它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器(VAE),由後驗編碼器、解碼器和條件先驗組成。
基於頻譜圖的聲學特徵集由基於流的模塊預測,該模塊由基於Transformer的文本編碼器和多個耦合層組成。頻譜圖使用一系列轉置卷積層進行解碼,與HiFi - GAN聲碼器的方式非常相似。由於TTS問題具有一對多的性質,即相同的文本輸入可以有多種發音方式,該模型還包括一個隨機時長預測器,允許模型從相同的輸入文本合成不同節奏的語音。
該模型通過結合變分下界和對抗訓練產生的損失進行端到端訓練。為了提高模型的表達能力,對條件先驗分佈應用了歸一化流。在推理過程中,文本編碼根據時長預測模塊進行上採樣,然後通過流模塊和HiFi - GAN解碼器的級聯映射到波形。由於時長預測器的隨機性,該模型是非確定性的,因此需要固定種子才能生成相同的語音波形。
對於MMS項目,每種語言都單獨訓練一個VITS檢查點。
📚 詳細文檔
BibTex引用
該模型由Meta AI的Vineel Pratap等人開發。如果你使用該模型,請考慮引用MMS論文:
@article{pratap2023mms,
title={Scaling Speech Technology to 1,000+ Languages},
author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
journal={arXiv},
year={2023}
}
📄 許可證
該模型遵循CC - BY - NC 4.0許可協議。