kan-bayashi_jsut_vits_prosodyオープンソースの日本語テキスト音声変換モデル

ホーム

Kan Bayashi Jsut Vits Prosody

espnetによって開発

これはESPnet2フレームワークで訓練された日本語テキスト音声合成モデルで、JSUTデータセットを使用して訓練され、高品質な音声合成をサポートします。

音声合成日本語#日本語TTS #プロソディ制御 #エンドツーエンド合成

ダウンロード数 53

リリース時間 : 3/2/2022

モデル概要

このモデルは日本語テキスト音声合成(TTS)モデルで、VITSアーキテクチャを採用し、プロソディと自然な音声生成に焦点を当てています。

モデル特徴

高品質音声合成

自然で流暢な日本語音声を生成可能

プロソディ制御

音声のプロソディ生成に特化し、より自然な音声を実現

エンドツーエンドアーキテクチャ

VITSエンドツーエンドアーキテクチャを使用し、音声合成プロセスを簡素化

モデル能力

日本語テキスト音声合成

プロソディ制御音声生成

使用事例

音声合成アプリケーション

音声アシスタント

日本語音声アシスタントに自然な音声出力を提供

自然で流暢な日本語音声を生成

オーディオブック

日本語テキストをオーディオブックに変換

表現力豊かな朗読音声を生成

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech）の分野で使用されるESPnet2の事前学習済みモデルです。特定のデータセットを用いて学習され、高品質な音声合成を実現します。

🚀 クイックスタート

`kan-bayashi/jsut_vits_prosody`

♻️ https://zenodo.org/record/5521354/ からインポートされました。

このモデルは、kan-bayashiによって espnet の jsut/tts1 レシピを使用して学習されました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルは cc-by-4.0 ライセンスの下で提供されています。

📚 ドキュメント

ESPnetの引用方法

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}