FastSpeech 2オープンソースのテキスト読み上げモデル - 無料で英語の単一話者の女性音声合成を実現

ホーム

Text To Speech

Nithuによって開発

Fairseq S²ベースのFastSpeech 2テキスト音声合成モデルで、英語単一話者女性音声の合成をサポートします。

音声合成英語#高品質音声合成 #単一話者女性音声 #英語TTS

ダウンロード数 40

リリース時間 : 10/20/2023

モデル概要

このモデルはFastSpeech 2アーキテクチャに基づくテキスト音声合成(TTS)モデルで、英語単一話者女性音声の合成に特化しており、LJSpeechデータセットからトレーニングされました。

モデル特徴

高品質音声合成

FastSpeech 2アーキテクチャに基づき、自然で流暢な英語女性音声を生成できます。

単一話者モデル

単一話者(女性音声)の音声合成に特化し、一貫した音色と品質を保証します。

HiFi-GANボコーダ統合

HiFi-GANをボコーダとして使用し、高品質な音声波形生成を提供します。

モデル能力

英語テキスト音声合成

単一話者音声合成

高品質音声生成

使用事例

音声合成アプリケーション

音声アシスタント

仮想アシスタントに自然な音声出力を提供

自然で流暢な英語女性音声を生成

オーディオブック

テキストコンテンツを音声に変換

長時間聴取に適した快適な音声を生成

教育アプリケーション

学習アプリに音声出力を提供

明確な英語発音が言語学習に役立つ

🚀 fastspeech2-en-ljspeech

FastSpeech 2 は、fairseq S^2（論文/コード）によるテキスト音声変換モデルです。

英語
単一話者の女性の声
LJSpeech で学習されたモデル

🚀 クイックスタート

このセクションでは、fastspeech2-en-ljspeech モデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

from fairseq.checkpoint_utils import load_model_ensemble_and_task_from_hf_hub
from fairseq.models.text_to_speech.hub_interface import TTSHubInterface
import IPython.display as ipd


models, cfg, task = load_model_ensemble_and_task_from_hf_hub(
    "facebook/fastspeech2-en-ljspeech",
    arg_overrides={"vocoder": "hifigan", "fp16": False}
)
model = models[0]
TTSHubInterface.update_cfg_with_data_cfg(cfg, task.data_cfg)
generator = task.build_generator(model, cfg)

text = "Hello, this is a test run."

sample = TTSHubInterface.get_model_input(task, text)
wav, rate = TTSHubInterface.get_prediction(task, model, generator, sample)

ipd.Audio(wav, rate=rate)

高度な使用法

詳細な使い方については、fairseq S^2 の例を参照してください。

📄 ライセンス

引用

@inproceedings{wang-etal-2021-fairseq,
    title = "fairseq S{\^{}}2: A Scalable and Integrable Speech Synthesis Toolkit",
    author = "Wang, Changhan  and
      Hsu, Wei-Ning  and
      Adi, Yossi  and
      Polyak, Adam  and
      Lee, Ann  and
      Chen, Peng-Jen  and
      Gu, Jiatao  and
      Pino, Juan",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-demo.17",
    doi = "10.18653/v1/2021.emnlp-demo.17",
    pages = "143--152",
}

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | FastSpeech 2 テキスト音声変換モデル |
| 学習データ | LJSpeech |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご