mms-tts-azj-script_latin開源文本轉語音模型 - 免費實現北阿塞拜疆語（拉丁字母）朗讀

首頁

Mms Tts Azj Script Latin

由facebook開發

Meta公司開發的北阿塞拜疆語(拉丁字母書寫)文本轉語音模型，屬於大規模多語言語音項目的一部分

語音合成

Transformers

#阿塞拜疆語TTS #端到端語音合成 #變分推理架構

下載量 36

發布時間 : 9/1/2023

模型概述

基於VITS架構的端到端文本轉語音模型，專門用於將北阿塞拜疆語文本轉換為自然語音

模型特點

多語言支持

屬於Meta大規模多語言語音(MMS)項目的一部分，支持多種語言的語音技術

端到端架構

採用VITS端到端架構，直接生成高質量語音波形

表達多樣性

通過隨機時長預測器支持對相同文本生成不同節奏的語音

高質量合成

結合變分下界損失和對抗訓練，生成自然流暢的語音

模型能力

文本轉語音

多語言語音合成

語音波形生成

使用案例

語音技術應用

語音助手

為北阿塞拜疆語用戶提供本地化語音助手服務

生成自然流暢的北阿塞拜疆語語音響應

有聲讀物

將北阿塞拜疆語文本內容轉換為語音

生成富有表現力的有聲內容

無障礙技術

為視障人士提供北阿塞拜疆語文本的語音轉換

改善信息獲取的可及性

🚀 大規模多語言語音（MMS）：阿塞拜疆語（北部）文本轉語音

本倉庫包含阿塞拜疆語（北部，拉丁字母書寫，azj - script_latin）的文本轉語音（TTS）模型檢查點。

該模型是Facebook的大規模多語言語音項目的一部分，旨在為多種語言提供語音技術。你可以在MMS語言覆蓋概述中找到更多關於支持語言及其ISO 639 - 3代碼的詳細信息，並在Hugging Face Hub上查看所有MMS - TTS檢查點：[facebook/mms - tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms - tts)。

MMS - TTS從🤗 Transformers庫的4.33版本開始可用。

🚀 快速開始

MMS - TTS從🤗 Transformers庫的4.33版本開始可用。要使用此檢查點，請先安裝該庫的最新版本：

pip install --upgrade transformers accelerate

然後，使用以下代碼片段進行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-azj-script_latin")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-azj-script_latin")

text = "some example text in the Azerbaijani, North language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成的波形可以保存為 .wav 文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

或者在Jupyter Notebook / Google Colab中展示：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主要特性

VITS（基於對抗學習的端到端文本轉語音變分推理模型）是一種端到端的語音合成模型，它根據輸入的文本序列預測語音波形。它是一個條件變分自編碼器（VAE），由後驗編碼器、解碼器和條件先驗組成。

基於流的模塊會預測一組基於頻譜圖的聲學特徵，該模塊由基於Transformer的文本編碼器和多個耦合層組成。頻譜圖使用一系列轉置卷積層進行解碼，這與HiFi - GAN聲碼器的風格非常相似。考慮到TTS問題的一對多性質，即相同的文本輸入可以有多種不同的發音方式，該模型還包含一個隨機持續時間預測器，這使得模型能夠從相同的輸入文本合成具有不同節奏的語音。

該模型通過結合變分下界和對抗訓練得出的損失進行端到端訓練。為了提高模型的表達能力，對條件先驗分佈應用了歸一化流。在推理過程中，文本編碼會根據持續時間預測模塊進行上採樣，然後通過流模塊和HiFi - GAN解碼器的級聯映射到波形。由於持續時間預測器的隨機性，該模型是非確定性的，因此需要一個固定的種子來生成相同的語音波形。

對於MMS項目，會為每種語言單獨訓練一個VITS檢查點。

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-azj-script_latin")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-azj-script_latin")

text = "some example text in the Azerbaijani, North language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高級用法

import scipy
# 將生成的波形保存為.wav文件
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

from IPython.display import Audio
# 在Jupyter Notebook / Google Colab中展示音頻
Audio(output, rate=model.config.sampling_rate)

📚 詳細文檔

BibTex引用

該模型由Meta AI的Vineel Pratap等人開發。如果你使用該模型，請考慮引用MMS論文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}