Spark-TTS-0.5B开源文本转语音系统 - 免费实现中英文合成与零样本语音克隆

首页

Spark TTS 0.5B

由 unsloth 开发

Spark-TTS是一款基于大型语言模型(LLM)的高效文本转语音系统，支持中英文双语合成和零样本语音克隆。

语音合成

Safetensors

支持多种语言#零样本语音克隆 #双语语音合成 #可控语音生成

下载量 116

发布时间 : 5/15/2025

模型简介

Spark-TTS是一款先进的文本转语音系统，利用大型语言模型(LLM)的强大能力实现高精度且自然流畅的语音合成。它设计高效、灵活且功能强大，适用于研究和生产环境。

模型特点

高效简洁

完全基于Qwen2.5构建，无需额外生成模型，直接从LLM预测的代码重构音频，简化流程提高效率

高质量语音克隆

支持零样本语音克隆，即使没有特定语音的训练数据也能复制说话者的声音

双语支持

支持中文和英文，能够进行跨语言和语码转换的零样本语音克隆

可控语音生成

支持通过调整性别、音高和语速等参数创建虚拟说话者

模型能力

文本转语音合成

零样本语音克隆

跨语言语音合成

语音参数控制

使用案例

语音合成

个性化语音助手

为虚拟助手创建自然流畅的个性化语音

高自然度和准确度的语音输出

有声读物制作

将文本内容转换为自然语音

支持多种语言和语音风格

语音克隆

语音复制

基于少量样本复制特定说话者的声音特征

无需训练即可实现高相似度克隆

🚀 Spark-TTS

Spark-TTS 是一个先进的文本转语音系统，借助大语言模型（LLM）的强大能力，实现高度准确且自然的语音合成。它专为研究和生产使用而设计，具备高效、灵活和强大的特点。

🚀 快速开始

克隆并安装

克隆仓库

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

安装 Conda：请参考 https://docs.conda.io/en/latest/miniconda.html
创建 Conda 环境：

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 如果你在中国内地，可以按如下方式设置镜像：
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

通过 Python 下载：

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通过 git clone 下载：

mkdir -p pretrained_models

# 确保你已经安装了 git-lfs (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

基本使用

你可以使用以下命令简单运行示例：

cd example
bash infer.sh

或者，你可以直接在命令行中执行以下命令进行推理：

python -m cli.inference \
    --text "text to synthesis." \
    --device 0 \
    --save_dir "path/to/save/audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "transcript of the prompt audio" \
    --prompt_speech_path "path/to/prompt_audio"

UI 使用

你可以通过运行 python webui.py 启动 UI 界面，该界面允许你进行语音克隆和语音创建。语音克隆支持上传参考音频或直接录制音频。

语音克隆	语音创建

✨ 主要特性

简单高效：Spark-TTS 完全基于 Qwen2.5 构建，无需额外的生成模型（如流匹配模型）。它直接从大语言模型预测的代码中重构音频，而不是依赖单独的模型来生成声学特征。这种方法简化了流程，提高了效率并降低了复杂性。
高质量语音克隆：支持零样本语音克隆，这意味着即使没有特定语音的训练数据，它也能复制说话者的声音。这对于跨语言和代码切换场景非常理想，允许在不同语言和声音之间无缝过渡，而无需为每种语言和声音进行单独训练。
双语支持：支持中文和英文，并且能够在跨语言和代码切换场景中进行零样本语音克隆，使模型能够以高度自然和准确的方式合成多种语言的语音。
可控语音生成：支持通过调整性别、音高和语速等参数创建虚拟说话者。

📚 详细文档

查看我们的集合

查看我们的集合，获取我们所有的 TTS 模型上传信息。

学习微调 TTS 模型

学习微调 TTS 模型 - 阅读我们的指南。

Unsloth Dynamic 2.0

Unsloth Dynamic 2.0 实现了卓越的准确性，优于其他领先的量化方法。

推理概述图

推理类型	概述图
语音克隆推理概述
可控生成推理概述

🔜 待办事项

[x] 发布 Spark-TTS 论文。
[ ] 发布训练代码。
[ ] 发布训练数据集 VoxBox。

📄 许可证

许可证更新

由于部分训练数据的许可条款，模型的许可证已从 Apache 2.0 更新为 CC BY - NC - SA。

主要变更

模型只能用于非商业目的。
任何修改或衍生作品也必须在 CC BY - NC - SA 4.0 许可下发布。
使用或修改模型时需要进行适当的归因。

请确保遵守新的许可条款。

⚠️ 使用免责声明

本项目提供了一个零样本语音克隆 TTS 模型，旨在用于学术研究、教育目的和合法应用，如个性化语音合成、辅助技术和语言学研究。

请注意：

请勿将此模型用于未经授权的语音克隆、模仿、欺诈、诈骗、深度伪造或任何非法活动。
使用此模型时，请确保遵守当地法律法规，并维护道德标准。
开发者对该模型的任何滥用行为不承担责任。

我们倡导负责任地开发和使用人工智能，并鼓励社区在人工智能研究和应用中维护安全和道德原则。如果您对道德或滥用问题有任何疑虑，请联系我们。

📖 引用

@misc{wang2025sparktts,
      title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, 
      author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
      year={2025},
      eprint={2503.01710},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2503.01710}, 
}