🚀 Spark-TTS
Spark-TTSは、大規模言語モデル(LLM)の力を活用した高度なテキスト・トゥ・スピーチシステムです。高精度かつ自然な音声合成を実現し、研究や実運用の両方において、効率的で柔軟かつ強力なパフォーマンスを発揮します。
🚀 クイックスタート
モデルの一覧
UnslothでTTSモデルを実行・ファインチューニング
- Google Colabノートブックを使って、無料でTTSモデルをファインチューニングできます。
- TTSサポートに関するブログをこちらで読むことができます。
Property |
Details |
Model Type |
Spark-TTS |
Training Data |
未記載 |
モデルの性能比較
Unslothがサポートするモデル |
無料ノートブック |
パフォーマンス |
メモリ使用量 |
Spark-TTS |
Colabで開始 |
1.5倍高速 |
58%少ない |
Whisper Large V3 |
Colabで開始 |
1.5倍高速 |
50%少ない |
Qwen3 (14B) |
Colabで開始 |
2倍高速 |
70%少ない |
Llama 3.2 Vision (11B) |
Colabで開始 |
1.8倍高速 |
50%少ない |
Spark-TTS
公式モデル:
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens
関連リンク
✨ 主な機能
- シンプルで効率的:Spark-TTSはQwen2.5の上に構築されており、flow matchingのような追加の生成モデルを必要としません。LLMが予測したコードから直接音声を再構築するため、プロセスが合理化され、効率が向上し、複雑さが軽減されます。
- 高品質な音声クローニング:ゼロショット音声クローニングをサポートしており、特定の音声のトレーニングデータがなくても話者の声を再現できます。これは、クロス言語やコードスイッチングのシナリオに最適で、それぞれの言語や声に対して別々のトレーニングを必要とせずに、言語や声の間をシームレスに切り替えることができます。
- バイリンガルサポート:中国語と英語の両方をサポートし、クロス言語やコードスイッチングのシナリオでのゼロショット音声クローニングが可能です。これにより、モデルは複数の言語で高い自然性と精度で音声を合成することができます。
- 制御可能な音声生成:性別、ピッチ、話速などのパラメータを調整することで、仮想話者を作成することができます。
音声クローニングと制御可能な生成の推論概要
音声クローニングの推論概要
 |
制御可能な生成の推論概要
 |
📦 インストール
クローンとインストール
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
Condaのインストール
詳細はこちらを参照してください。
Conda環境の作成
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
モデルのダウンロード
Pythonを使ったダウンロード
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
Git cloneを使ったダウンロード
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
💻 使用例
基本的な使用法
以下のコマンドでデモを実行できます。
cd example
bash infer.sh
または、コマンドラインで以下のコマンドを直接実行して推論を行うこともできます。
python -m cli.inference \
--text "合成するテキスト" \
--device 0 \
--save_dir "音声を保存するパス" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "プロンプト音声のトランスクリプト" \
--prompt_speech_path "プロンプト音声のパス"
高度な使用法
python webui.py
を実行することで、UIインターフェースを起動できます。これにより、音声クローニングと音声作成を行うことができます。音声クローニングでは、参照音声をアップロードするか、直接音声を録音することができます。
音声クローニング |
音声作成 |
 |
 |
今後の予定
- [x] Spark-TTSの論文を公開しました。
- [ ] トレーニングコードを公開予定。
- [ ] トレーニングデータセット、VoxBoxを公開予定。
引用
@misc{wang2025sparktts,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
year={2025},
eprint={2503.01710},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2503.01710},
}
📄 ライセンス
モデルのライセンスは、一部のトレーニングデータのライセンス条項により、Apache 2.0からCC BY-NC-SAに更新されました。
主な変更点
- モデルは非商用目的でのみ使用できます。
- モデルを修正または派生させた場合は、CC BY-NC-SA 4.0の下で公開する必要があります。
- モデルを使用または修正する際には、適切な帰属表示が必要です。
新しいライセンス条項に準拠するようにしてください。
使用上の注意
このプロジェクトは、ゼロショット音声クローニングTTSモデルを提供しており、学術研究、教育目的、および正当なアプリケーション(パーソナライズされた音声合成、支援技術、言語学的研究など)を対象としています。
注意事項
- このモデルを、許可されていない音声クローニング、なりすまし、詐欺、スカム、ディープフェイク、またはその他の違法行為に使用しないでください。
- このモデルを使用する際には、地元の法律や規制に準拠し、倫理基準を守ってください。
- 開発者は、このモデルの誤用に対して一切の責任を負いません。
私たちは、AIの責任ある開発と使用を提唱し、コミュニティにAI研究とアプリケーションにおける安全性と倫理原則を守ることを奨励します。倫理や誤用に関する懸念がある場合は、お問い合わせください。