kan-bayashi_jvs_tts_finetuneオープンソースの日语文本読み上げモデル

Kan Bayashi Jvs Tts Finetune Jvs001 Jsut Vits Raw Phn Jaconv Pyopenjta Truncated 178804

espnetによって開発

これはESPnetフレームワークを基に訓練された日本語のテキストを音声に変換する(TTS)モデルで、jvsデータセットを使用して微調整され、高品質の日本語音声合成をサポートします。

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルは日本語のテキストを音声に変換するシステムで、入力された日本語テキストを自然で流れる音声出力に変換することができます。VITSアーキテクチャに基づいており、jaconvやpyopenjtalkなどのツールを使用してテキスト処理を行います。

モデル特徴

高品質音声合成

自然で流れる日本語音声出力を生成することができます

VITSアーキテクチャに基づく

変分推論と敵対的トレーニングを用いたエンドツーエンドのTTSシステムを使用しています

ポーズ処理をサポート

モデルは音声の自然なポーズを処理することができます

アクセント制御

日本語のアクセント変化の処理をサポートします

モデル能力

日本語テキストを音声に変換

音声合成

アクセント制御

使用事例

音声アシスタント

スマート客服音声

日本語の客服システムに自然な音声出力を提供します

ユーザー体験と対話の自然度を向上させます

オーディオコンテンツ作成

電子書籍の読み上げ

日本語のテキストコンテンツを音声に変換します

視覚障害者に便利で、マルチモードのコンテンツを提供します

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech, TTS）の分野において、ESPnet2をベースに訓練された事前学習済みモデルです。jvsデータセットを用いて訓練され、高品質な音声合成を実現します。

🚀 クイックスタート

`kan-bayashi/jvs_tts_finetune_jvs001_jsut_vits_raw_phn_jaconv_pyopenjtalk_accent_with_pause_latest`

♻️ https://zenodo.org/record/5432540/ からインポートされました。

このモデルは、kan-bayashiによってespnetのjvs/tts1レシピを使用して訓練されました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 ドキュメント

ESPnetを引用する場合

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}