fastspeech2-en-200_speaker-cv4開源英語文本轉語音模型

首頁

Fastspeech2 En 200 Speaker Cv4

由facebook開發

基於FastSpeech 2架構的英語文本轉語音模型，支持200種不同聲音，基於Common Voice v4數據集訓練。

語音合成英語#多說話人TTS #英語語音合成 #FastSpeech2架構

下載量 37

發布時間 : 3/2/2022

模型概述

這是一個多說話人文本轉語音模型，能夠將英語文本轉換為自然語音，支持200種不同的男聲和女聲。

模型特點

多說話人支持

模型支持200種不同的男聲和女聲，可在使用時隨機選擇說話人。

高質量語音合成

基於FastSpeech 2架構，能夠生成自然流暢的語音輸出。

大規模數據集訓練

使用Common Voice v4數據集進行訓練，保證了模型的泛化能力。

模型能力

英語文本轉語音

多說話人語音合成

使用案例

語音合成應用

語音助手

為語音助手系統提供自然的多聲音語音輸出。

生成自然流暢的語音響應

有聲讀物

將文本內容自動轉換為多種聲音的有聲讀物。

支持200種不同聲音的朗讀

🚀 fastspeech2-en-200_speaker-cv4

FastSpeech 2是一個文本轉語音模型，來自fairseq S²。它具備以下特點：支持英文語音合成，擁有200種男女聲線（在使用小部件時隨機選擇說話人），並且在Common Voice v4數據集上進行訓練。該模型能有效解決文本到語音的轉換問題，為語音合成應用提供了強大的支持。

🚀 快速開始

本模型可直接用於英文文本轉語音任務，以下是使用示例代碼。

💻 使用示例

基礎用法

from fairseq.checkpoint_utils import load_model_ensemble_and_task_from_hf_hub
from fairseq.models.text_to_speech.hub_interface import TTSHubInterface
import IPython.display as ipd


models, cfg, task = load_model_ensemble_and_task_from_hf_hub(
    "facebook/fastspeech2-en-200_speaker-cv4",
    arg_overrides={"vocoder": "hifigan", "fp16": False}
)
model = models[0]
TTSHubInterface.update_cfg_with_data_cfg(cfg, task.data_cfg)
generator = task.build_generator(model, cfg)

text = "Hello, this is a test run."

sample = TTSHubInterface.get_model_input(task, text)
wav, rate = TTSHubInterface.get_prediction(task, model, generator, sample)

ipd.Audio(wav, rate=rate)

更多使用說明可參考 fairseq S² 示例。

📚 詳細文檔

模型信息
- 模型類型：FastSpeech 2文本轉語音模型
- 訓練數據：Common Voice v4 | 屬性 | 詳情 | |------|------| | 模型類型 | FastSpeech 2文本轉語音模型 | | 訓練數據 | Common Voice v4 |

📄 許可證

文檔中未提及相關許可證信息。

📄 引用

如果您使用了該模型，請按照以下格式進行引用：

@inproceedings{wang-etal-2021-fairseq,
    title = "fairseq S{\^{}}2: A Scalable and Integrable Speech Synthesis Toolkit",
    author = "Wang, Changhan  and
      Hsu, Wei-Ning  and
      Adi, Yossi  and
      Polyak, Adam  and
      Lee, Ann  and
      Chen, Peng-Jen  and
      Gu, Jiatao  and
      Pino, Juan",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-demo.17",
    doi = "10.18653/v1/2021.emnlp-demo.17",
    pages = "143--152",
}