魚語音声V1.5オープンソースTTSモデル - 100万時間以上の多言語オーディオデータに基づくテキスト読み上げツール

ホーム

Fish Speech 1.5

ModelsLabによって開発

フィッシュスピーチ V1.5は、100万時間以上の多言語音声データでトレーニングされた最先端のテキスト読み上げ（TTS）モデルです。

音声合成複数言語対応#多言語TTS #百万時間級トレーニング #学術研究フレンドリー

ダウンロード数 98

リリース時間 : 2/27/2025

モデル概要

高度な多言語テキスト読み上げ合成システムで、13言語をサポートし、特に中国語と英語の音声合成効果を最適化しています。

モデル特徴

多言語サポート

13言語のテキスト読み上げをサポートし、特に中国語と英語の音声合成効果を最適化しています。

大規模トレーニングデータ

100万時間以上の多言語音声データでトレーニングされており、中国語と英語はそれぞれ30万時間以上含まれています。

学術研究サポート

関連研究論文はarXivに掲載されており、学術引用をサポートしています。

モデル能力

テキスト読み上げ

多言語音声合成

高品質音声出力

使用事例

音声合成アプリケーション

音声アシスタント

スマートデバイスに自然な音声出力を提供

より自然な多言語音声体験

オーディオブック

テキストコンテンツを音声に変換

高品質な多言語オーディオコンテンツ

教育アプリケーション

言語学習アプリのための発音補助

正確な発音デモンストレーション

🚀 Fish Speech V1.5

Fish Speech V1.5 は、複数の言語で100万時間以上の音声データを用いて学習された、最先端のテキスト読み上げ（TTS）モデルです。このモデルは、多様な言語で高品質な音声合成を実現し、幅広い用途に対応します。

🚀 クイックスタート

Fish Speech V1.5は、複数の言語に対応したテキスト読み上げモデルです。以下に、サポートされている言語とその学習時間を示します。

サポート言語

言語	学習時間
英語 (en)	>300k時間
中国語 (zh)	>300k時間
日本語 (ja)	>100k時間
ドイツ語 (de)	~20k時間
フランス語 (fr)	~20k時間
スペイン語 (es)	~20k時間
韓国語 (ko)	~20k時間
アラビア語 (ar)	~20k時間
ロシア語 (ru)	~20k時間
オランダ語 (nl)	<10k時間
イタリア語 (it)	<10k時間
ポーランド語 (pl)	<10k時間
ポルトガル語 (pt)	<10k時間

詳細情報については、Fish Speech Github を参照してください。
デモは Fish Audio で利用できます。

📚 ドキュメント

引用

このリポジトリが役に立った場合は、以下のように引用していただけると幸いです。

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}, 
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156}, 
}