🚀 Spark-TTS
Spark-TTSは、大規模言語モデル(LLM)の力を活用した高度なテキスト読み上げシステムです。高精度で自然な音声合成を実現し、研究や本番環境での使用に効率的で柔軟かつ強力なモデルです。
Spark-TTS
公式モデル
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens
✨ 主な機能
🔗 関連リンク
概要
Spark-TTSは、大規模言語モデル(LLM)の力を活用した高度なテキスト読み上げシステムです。高精度で自然な音声合成を実現し、研究や本番環境での使用に効率的で柔軟かつ強力なモデルです。
主要な特徴
- シンプルで効率的:Qwen2.5のみをベースに構築され、flow matchingなどの追加の生成モデルを必要としません。音響特徴を生成するために別のモデルに依存する代わりに、LLMによって予測されたコードから直接音声を再構築します。このアプローチにより、プロセスが合理化され、効率が向上し、複雑さが軽減されます。
- 高品質な音声クローニング:ゼロショット音声クローニングをサポートしており、特定の音声のトレーニングデータがなくても話者の声を再現できます。これは、多言語やコードスイッチングのシナリオに最適であり、それぞれの言語や声に対して別々のトレーニングを必要とせずに、言語や声の間をシームレスに切り替えることができます。
- バイリンガル対応:中国語と英語の両方をサポートし、多言語やコードスイッチングのシナリオでのゼロショット音声クローニングが可能です。これにより、モデルは複数の言語で高い自然性と精度で音声合成を行うことができます。
- 制御可能な音声生成:性別、ピッチ、話す速度などのパラメータを調整して、仮想話者を作成することができます。
音声クローニングの推論概要
 |
制御可能な生成の推論概要
 |
📦 インストール
クローンとインストール
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
Condaのインストール
https://docs.conda.io/en/latest/miniconda.html を参照してください。
Conda環境の作成
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
モデルのダウンロード
Pythonを使用したダウンロード
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
git cloneを使用したダウンロード
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
💻 使用例
基本的な使用法
以下のコマンドでデモを実行できます。
cd example
bash infer.sh
または、コマンドラインで以下のコマンドを直接実行して推論を行うこともできます。
python -m cli.inference \
--text "text to synthesis." \
--device 0 \
--save_dir "path/to/save/audio" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "transcript of the prompt audio" \
--prompt_speech_path "path/to/prompt_audio"
高度な使用法
python webui.py
を実行することで、UIインターフェースを起動できます。これにより、音声クローニングと音声作成を行うことができます。音声クローニングでは、参照音声をアップロードするか、直接音声を録音することができます。
音声クローニング |
音声作成 |
 |
 |
📄 ライセンス
このモデルのライセンスは、一部のトレーニングデータのライセンス条項により、Apache 2.0からCC BY - NC - SAに更新されました。
主な変更点:
- このモデルは非商用目的での使用のみが許可されます。
- モデルを修正または派生させた場合、それらもCC BY - NC - SA 4.0の下で公開する必要があります。
- モデルを使用または修正する際には、適切な帰属表示が必要です。
新しいライセンス条項に準拠するようにしてください。
引用
@misc{wang2025sparktts,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
year={2025},
eprint={2503.01710},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2503.01710},
}
使用上の注意事項
このプロジェクトは、ゼロショット音声クローニングのテキスト読み上げモデルを提供しており、学術研究、教育目的、および正当なアプリケーション(パーソナライズされた音声合成、支援技術、言語学研究など)を対象としています。
以下の点に注意してください。
- このモデルを、許可されていない音声クローニング、なりすまし、詐欺、スキャム、ディープフェイク、またはその他の違法行為に使用しないでください。
- このモデルを使用する際には、地元の法律や規制に準拠し、倫理基準を守ってください。
- 開発者は、このモデルの誤用に対して一切の責任を負いません。
私たちは、AIの責任ある開発と使用を提唱し、コミュニティにAI研究やアプリケーションにおける安全性と倫理原則を守ることを促します。倫理や誤用に関する懸念がある場合は、お問い合わせください。
今後の予定
- [x] Spark-TTSの論文を公開
- [ ] トレーニングコードを公開
- [ ] トレーニングデータセット、VoxBoxを公開