kan-bayashi_ljspeech_vitsオープンソーステキスト読み上げモデル

ホーム

Kan Bayashi Ljspeech Vits

espnetによって開発

ESPnetフレームワークに基づいて訓練されたVITSテキスト音声変換モデルで、LJSpeechデータセットを使用して訓練され、英語の音声合成をサポートします。

音声合成英語#高品質音声合成 #エンドツーエンドTTS #VITSアーキテクチャ

ダウンロード数 2,780

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのテキスト音声変換（TTS）モデルで、VITSアーキテクチャを採用し、英語のテキストを自然な音声に変換することができます。

モデル特徴

エンドツーエンド音声合成

VITSアーキテクチャを採用してエンドツーエンドのテキストから音声への変換を実現し、複雑な特徴エンジニアリングは必要ありません。

高品質音声出力

LJSpeechデータセットに基づいて訓練され、自然でスムーズな英語の音声を生成できます。

ESPnet統合

ESPnetエコシステムと完全に互換性があり、デプロイと統合が容易です。

モデル能力

英語テキスト音声変換

高品質音声合成

使用事例

音声合成アプリケーション

オーディオブック生成

電子書籍のテキストを自動的に音声に変換します。

自然でスムーズなオーディオブックを生成します。

音声アシスタント

スマートアシスタントに音声出力機能を提供します。

ユーザー体験を向上させる自然な音声対話を実現します。

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech）のためのESPnet2を使用して事前学習されたモデルです。ljspeechデータセットを用いて訓練され、高品質な音声合成を実現します。

🚀 クイックスタート

このモデルはkan-bayashi/ljspeech_vitsという名前で公開されており、https://zenodo.org/record/5443814/ からインポートされました。このモデルは、kan-bayashiによってespnetのljspeech/tts1レシピを使用して訓練されました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で公開されています。

📚 ドキュメント

ESPnetの引用

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}