kan-bayashi_csmsc_vitsオープンソースのテキスト読み上げモデル - 無料で中国語標準語の音声合成をサポート

ホーム

Kan Bayashi Csmsc Vits

espnetによって開発

これはESPnet2フレームワークに基づいて訓練されたテキストを音声に変換する(TTS)モデルで、VITSアーキテクチャを使用し、中国語の普通話をサポートします。

音声合成中国語#中国語音声合成 #VITSアーキテクチャ #高品質TTS

ダウンロード数 37

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのテキストを音声に変換するモデルで、中国語のテキストを自然で流暢な音声出力に変換することができます。

モデル特徴

エンドツーエンドの音声合成

VITSアーキテクチャを採用してエンドツーエンドのテキストから音声への変換を実現し、従来の音声合成の多段階プロセスを簡素化します。

高品質の音声出力

自然で流暢な中国語の普通話の音声を生成することができます。

ESPnet2フレームワークのサポート

成熟したエンドツーエンドの音声処理ツールキットであるESPnet2に基づいて開発されています。

モデル能力

中国語のテキストを音声に変換

普通話の音声合成

使用事例

音声インタラクション

スマート音声アシスタント

スマートデバイスに中国語の音声出力機能を提供します。

バリアフリーサービス

テキスト読み上げ

視覚障害者が文字情報を取得するのを支援します。

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech）の分野で活用できる事前学習済みモデルです。espnetをベースに構築され、特定のデータセットを用いて学習されています。

🚀 クイックスタート

`kan-bayashi/csmsc_vits`

♻️ https://zenodo.org/record/5499120/ からインポートされました。

このモデルは、kan-bayashiによってespnetのcsmsc/tts1レシピを使用して学習されました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 ドキュメント

ESPnetの引用方法

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}