🚀 Spark-TTS
Spark-TTS是一款先進的文本轉語音系統,藉助大語言模型(LLM)的強大能力,實現高度準確且自然的語音合成。它高效、靈活且功能強大,適用於研究和生產環境。
🚀 快速開始
項目資源鏈接
安裝步驟
克隆並安裝依賴
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
安裝Conda,請參考:https://docs.conda.io/en/latest/miniconda.html
創建Conda環境:
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下載
通過Python下載:
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
通過git clone下載:
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
基本使用
你可以使用以下命令運行演示:
cd example
bash infer.sh
或者,你也可以在命令行中直接執行以下命令進行推理:
python -m cli.inference \
--text "text to synthesis." \
--device 0 \
--save_dir "path/to/save/audio" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "transcript of the prompt audio" \
--prompt_speech_path "path/to/prompt_audio"
UI使用
你可以通過運行 python webui.py
啟動UI界面,該界面支持語音克隆和語音創建。語音克隆支持上傳參考音頻或直接錄製音頻。
語音克隆 |
語音創建 |
 |
 |
✨ 主要特性
- 簡單高效:完全基於Qwen2.5構建,Spark-TTS無需額外的生成模型(如流匹配模型)。它直接根據大語言模型預測的代碼重構音頻,而不是依賴單獨的模型生成聲學特徵。這種方法簡化了流程,提高了效率並降低了複雜度。
- 高質量語音克隆:支持零樣本語音克隆,即無需特定語音的訓練數據即可複製說話者的聲音。這在跨語言和代碼切換場景中非常理想,允許在不同語言和語音之間無縫過渡,而無需為每種語言和語音單獨訓練。
- 雙語支持:支持中文和英文,並且能夠在跨語言和代碼切換場景中進行零樣本語音克隆,使模型能夠以高度自然和準確的方式合成多種語言的語音。
- 可控語音生成:支持通過調整性別、音高和語速等參數創建虛擬說話者。

📄 許可證
由於部分訓練數據的許可條款,模型的許可證已從Apache 2.0更新為CC BY - NC - SA。
主要變更:
- 該模型僅可用於非商業目的。
- 任何修改或衍生作品也必須在CC BY - NC - SA 4.0許可下發布。
- 使用或修改模型時需要進行適當的引用。
請確保遵守新的許可條款。
📚 詳細文檔
待辦事項
- [x] 發佈Spark-TTS論文。
- [ ] 發佈訓練代碼。
- [ ] 發佈訓練數據集VoxBox。
引用信息
@misc{wang2025sparktts,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
year={2025},
eprint={2503.01710},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2503.01710},
}
使用免責聲明
本項目提供了一個零樣本語音克隆的文本轉語音模型,旨在用於學術研究、教育目的和合法應用,如個性化語音合成、輔助技術和語言學研究。
請注意:
- 請勿將此模型用於未經授權的語音克隆、模仿、欺詐、詐騙、深度偽造或任何非法活動。
- 使用此模型時,請確保遵守當地法律法規,並維護道德標準。
- 開發者對該模型的任何濫用行為不承擔責任。
我們倡導負責任地開發和使用人工智能,並鼓勵社區在人工智能研究和應用中維護安全和道德原則。如果你對道德或濫用問題有任何疑慮,請聯繫我們。