kan-bayashi_ljspeech_fastspeech2オープンソーステキスト（文章）を音声に変換するモデル

ホーム

Kan Bayashi Ljspeech Fastspeech2

espnetによって開発

これはESPnetフレームワークでトレーニングされたFastSpeech2テキスト音声合成(TTS)モデルで、LJSpeechデータセットを使用してトレーニングされました。

音声合成英語#高品質音声合成 #FastSpeech2アーキテクチャ #英語TTS

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルは高品質なテキスト音声合成モデルで、英語のテキストを自然な音声出力に変換できます。

モデル特徴

高品質音声合成

FastSpeech2アーキテクチャに基づき、自然で滑らかな音声出力を生成可能

オープンソース実装

オープンソースのESPnetフレームワークでトレーニングされており、再現や統合が容易

標準データセットトレーニング

広く認知されているLJSpeechデータセットを使用してトレーニングされており、モデルの品質を保証

モデル能力

英語テキスト音声合成

高品質音声合成

使用事例

音声合成アプリケーション

オーディオブック生成

電子書籍のテキストを自動的に音声に変換

自然で滑らかなオーディオブックを生成

音声アシスタント

スマートデバイスに音声出力機能を提供

より自然なインタラクション体験を提供

🚀 ESPnet2 TTSモデルの例

このモデルは、音声合成（Text-to-Speech）の分野において、espnetをベースに構築されたものです。ljspeechデータセットを用いて訓練され、高度な音声合成能力を備えています。

🚀 クイックスタート

このモデルは、kan-bayashiによってespnetのljspeech/tts1レシピを使用して訓練されました。 ♻️ https://zenodo.org/record/4036272/ からインポートされました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 ドキュメント

ESPnetの引用

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}