kan-bayashi_libritts_xvector_vitsオープンソースのテキストツースピーチモデル

ホーム

Kan Bayashi Libritts Xvector Vits

espnetによって開発

ESPnetフレームワークでトレーニングされたテキスト読み上げモデルで、LibriTTSデータセットを使用して英語音声合成をサポートします。

音声合成英語#高品質音声合成 #複数話者対応 #xVector声紋埋め込み

ダウンロード数 61

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのテキスト読み上げ(TTS)モデルで、入力された英語テキストを自然な音声に変換できます。

モデル特徴

高品質音声合成

自然で流暢な英語音声を生成可能

エンドツーエンドアーキテクチャ

VITSアーキテクチャを採用し、テキストから音声への直接変換を実現

x-vectorサポート

x-vector特徴を統合し、話者特徴制御を可能にする

モデル能力

英語テキスト読み上げ

高品質音声合成

使用事例

音声合成アプリケーション

オーディオブック生成

電子書籍テキストを音声に変換

自然で流暢なオーディオブックを生成

音声アシスタント

スマートデバイスに音声出力機能を提供

より自然な音声インタラクションを実現

🚀 ESPnet2 TTS 事前学習済みモデル

このモデルは、音声合成（Text-to-Speech）の分野で使用されるESPnet2の事前学習済みモデルです。librittsデータセットを用いて訓練され、高品質な音声合成を実現します。

🚀 クイックスタート

このモデルは、kan-bayashiによってespnetのlibritts/tts1レシピを使用して訓練されました。 ♻️ https://zenodo.org/record/5521416/ からインポートされました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 引用情報

ESPnetを引用する場合は、以下のBibTeXエントリを使用してください。

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}