kan-bayashi_csmsc_vitsオープンソースのテキスト読み上げモデル - 無料で中国語標準語の音声合成をサポート

Home

Kan Bayashi Csmsc Vits

Developed by espnet

これはESPnet2フレームワークに基づいて訓練されたテキストを音声に変換する(TTS)モデルで、VITSアーキテクチャを使用し、中国語の普通話をサポートします。

音声合成 Chinese#中国語音声合成 #VITSアーキテクチャ #高品質TTS

Downloads 37

Release Time : 3/2/2022

Model Overview

このモデルはエンドツーエンドのテキストを音声に変換するモデルで、中国語のテキストを自然で流暢な音声出力に変換することができます。

Model Features

エンドツーエンドの音声合成

VITSアーキテクチャを採用してエンドツーエンドのテキストから音声への変換を実現し、従来の音声合成の多段階プロセスを簡素化します。

高品質の音声出力

自然で流暢な中国語の普通話の音声を生成することができます。

ESPnet2フレームワークのサポート

成熟したエンドツーエンドの音声処理ツールキットであるESPnet2に基づいて開発されています。

Model Capabilities

中国語のテキストを音声に変換

普通話の音声合成

Use Cases

音声インタラクション

スマート音声アシスタント

スマートデバイスに中国語の音声出力機能を提供します。

バリアフリーサービス

テキスト読み上げ

視覚障害者が文字情報を取得するのを支援します。

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech）の分野で活用できる事前学習済みモデルです。espnetをベースに構築され、特定のデータセットを用いて学習されています。

🚀 クイックスタート

`kan-bayashi/csmsc_vits`

♻️ https://zenodo.org/record/5499120/ からインポートされました。

このモデルは、kan-bayashiによってespnetのcsmsc/tts1レシピを使用して学習されました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 ドキュメント

ESPnetの引用方法

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}