Spark-TTS-0.5B開源文本轉語音系統 - 免費實現高精度自然流暢語音合成

首頁

Spark TTS 0.5B

由prince-canuma開發

Spark-TTS是基於大語言模型的先進文本轉語音系統，能夠實現高精度、自然流暢的語音合成。

語音合成

Safetensors

支持多種語言#零樣本音色克隆 #中英混合合成 #LLM語音生成

下載量 20

發布時間 : 5/8/2025

模型概述

Spark-TTS是基於大語言模型（LLM）的文本轉語音系統，專為高效性、靈活性和強大性能而設計，適用於研究和生產場景。支持音色克隆和可控語音生成。

模型特點

簡潔高效

完全基於Qwen2.5架構，無需依賴流匹配等額外生成模型，通過大語言模型直接預測音頻編碼重構語音，簡化流程並提升效率。

高質量音色克隆

支持零樣本音色克隆，即使沒有目標音色的訓練數據也能復現說話人特徵，特別適合跨語言和語碼轉換場景。

雙語支持

支持中英文混合合成，在跨語言場景下保持高自然度和準確性。

可控語音生成

可通過調節性別、音高、語速等參數創建虛擬說話人。

模型能力

文本轉語音

音色克隆

語音參數控制

中英文混合合成

使用案例

語音合成

音色克隆

使用少量參考音頻克隆特定說話人的音色

生成具有目標說話人特徵的語音

虛擬說話人生成

通過調節參數創建自定義虛擬說話人

生成具有特定性別、音高和語速特徵的語音

跨語言應用

中英文混合合成

在單一語音中流暢切換中英文

保持語音自然度和一致性

🚀 Spark-TTS

Spark-TTS是一款先進的文本轉語音系統，藉助大語言模型（LLM）的強大能力，實現高度準確且自然的語音合成。它高效、靈活且功能強大，適用於研究和生產環境。

🚀 快速開始

項目資源鏈接

安裝步驟

克隆並安裝依賴

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

安裝Conda，請參考：https://docs.conda.io/en/latest/miniconda.html 創建Conda環境：

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 如果你在中國內地，可以設置鏡像如下：
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下載

通過Python下載：

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通過git clone下載：

mkdir -p pretrained_models

# 確保你已經安裝了git-lfs (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

基本使用

你可以使用以下命令運行演示：

cd example
bash infer.sh

或者，你也可以在命令行中直接執行以下命令進行推理：

python -m cli.inference \
    --text "text to synthesis." \
    --device 0 \
    --save_dir "path/to/save/audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "transcript of the prompt audio" \
    --prompt_speech_path "path/to/prompt_audio"

UI使用

你可以通過運行 python webui.py 啟動UI界面，該界面支持語音克隆和語音創建。語音克隆支持上傳參考音頻或直接錄製音頻。

語音克隆	語音創建

✨ 主要特性

簡單高效：完全基於Qwen2.5構建，Spark-TTS無需額外的生成模型（如流匹配模型）。它直接根據大語言模型預測的代碼重構音頻，而不是依賴單獨的模型生成聲學特徵。這種方法簡化了流程，提高了效率並降低了複雜度。
高質量語音克隆：支持零樣本語音克隆，即無需特定語音的訓練數據即可複製說話者的聲音。這在跨語言和代碼切換場景中非常理想，允許在不同語言和語音之間無縫過渡，而無需為每種語言和語音單獨訓練。
雙語支持：支持中文和英文，並且能夠在跨語言和代碼切換場景中進行零樣本語音克隆，使模型能夠以高度自然和準確的方式合成多種語言的語音。
可控語音生成：支持通過調整性別、音高和語速等參數創建虛擬說話者。

推理概述 - 語音克隆推理概述 - 可控生成

📄 許可證

由於部分訓練數據的許可條款，模型的許可證已從Apache 2.0更新為CC BY - NC - SA。

主要變更：

該模型僅可用於非商業目的。
任何修改或衍生作品也必須在CC BY - NC - SA 4.0許可下發布。
使用或修改模型時需要進行適當的引用。

請確保遵守新的許可條款。

📚 詳細文檔

待辦事項

[x] 發佈Spark-TTS論文。
[ ] 發佈訓練代碼。
[ ] 發佈訓練數據集VoxBox。

引用信息

@misc{wang2025sparktts,
      title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, 
      author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
      year={2025},
      eprint={2503.01710},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2503.01710}, 
}