ホーム

Spark TTS 0.5B

unslothによって開発

Spark-TTSは、大規模言語モデル（LLM）に基づく高効率のテキスト音声変換システムで、英語と中国語のバイリンガル合成とゼロショット音声クローニングをサポートしています。

音声合成

Safetensors

複数言語対応#ゼロショット音声クローニング #バイリンガル音声合成 #制御可能な音声生成

ダウンロード数 116

リリース時間 : 5/15/2025

モデル概要

Spark-TTSは、大規模言語モデル（LLM）の強力な能力を活用して、高精度で自然な音声合成を実現する先進的なテキスト音声変換システムです。高効率、柔軟性、機能性が高く、研究や実運用環境に適しています。

モデル特徴

高効率でシンプル

完全にQwen2.5に基づいて構築されており、追加の生成モデルは必要ありません。LLMが予測したコードから直接音声を再構築することで、プロセスを簡素化し、効率を向上させます。

高品質の音声クローニング

ゼロショット音声クローニングをサポートしており、特定の音声の学習データがなくても話者の声を複製することができます。

バイリンガル対応

中国語と英語をサポートし、言語間およびコードスイッチングのゼロショット音声クローニングが可能です。

制御可能な音声生成

性別、音高、話速などのパラメータを調整することで、仮想話者を作成することができます。

モデル能力

テキスト音声合成

ゼロショット音声クローニング

言語間音声合成

音声パラメータ制御

使用事例

音声合成

個性的な音声アシスタント

バーチャルアシスタントに自然で流暢な個性的な音声を作成する

高い自然度と正確度の音声出力

オーディオブック制作

テキスト内容を自然な音声に変換する

複数の言語と音声スタイルをサポート

音声クローニング

音声複製

少量のサンプルに基づいて特定の話者の音声特徴を複製する

学習なしで高い類似度のクローニングが可能

🚀 Spark-TTS

Spark-TTSは、大規模言語モデル（LLM）の力を活用した高度なテキスト・トゥ・スピーチシステムです。高精度かつ自然な音声合成を実現し、研究や実運用の両方において、効率的で柔軟かつ強力なパフォーマンスを発揮します。

🚀 クイックスタート

モデルの一覧

すべてのTTSモデルのアップロードについては、当社のコレクションをご覧ください。
TTSモデルのファインチューニング方法については、ガイドを読むを参照してください。
Unsloth Dynamic 2.0は、卓越した精度を達成し、他の主要な量子化手法を上回っています。

UnslothでTTSモデルを実行・ファインチューニング

Google Colabノートブックを使って、無料でTTSモデルをファインチューニングできます。
TTSサポートに関するブログをこちらで読むことができます。

Property	Details
Model Type	Spark-TTS
Training Data	未記載

モデルの性能比較

Unslothがサポートするモデル	無料ノートブック	パフォーマンス	メモリ使用量
Spark-TTS	Colabで開始	1.5倍高速	58%少ない
Whisper Large V3	Colabで開始	1.5倍高速	50%少ない
Qwen3 (14B)	Colabで開始	2倍高速	70%少ない
Llama 3.2 Vision (11B)	Colabで開始	1.8倍高速	50%少ない

Spark-TTS

公式モデル：
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

✨ 主な機能

シンプルで効率的：Spark-TTSはQwen2.5の上に構築されており、flow matchingのような追加の生成モデルを必要としません。LLMが予測したコードから直接音声を再構築するため、プロセスが合理化され、効率が向上し、複雑さが軽減されます。
高品質な音声クローニング：ゼロショット音声クローニングをサポートしており、特定の音声のトレーニングデータがなくても話者の声を再現できます。これは、クロス言語やコードスイッチングのシナリオに最適で、それぞれの言語や声に対して別々のトレーニングを必要とせずに、言語や声の間をシームレスに切り替えることができます。
バイリンガルサポート：中国語と英語の両方をサポートし、クロス言語やコードスイッチングのシナリオでのゼロショット音声クローニングが可能です。これにより、モデルは複数の言語で高い自然性と精度で音声を合成することができます。
制御可能な音声生成：性別、ピッチ、話速などのパラメータを調整することで、仮想話者を作成することができます。

音声クローニングと制御可能な生成の推論概要

音声クローニングの推論概要

制御可能な生成の推論概要

📦 インストール

クローンとインストール

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

Condaのインストール

詳細はこちらを参照してください。

Conda環境の作成

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 中国本土にいる場合は、以下のようにミラーを設定できます。
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

モデルのダウンロード

Pythonを使ったダウンロード

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

Git cloneを使ったダウンロード

mkdir -p pretrained_models

# git-lfsがインストールされていることを確認してください (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

💻 使用例

基本的な使用法

以下のコマンドでデモを実行できます。

cd example
bash infer.sh

または、コマンドラインで以下のコマンドを直接実行して推論を行うこともできます。

python -m cli.inference \
    --text "合成するテキスト" \
    --device 0 \
    --save_dir "音声を保存するパス" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "プロンプト音声のトランスクリプト" \
    --prompt_speech_path "プロンプト音声のパス"

高度な使用法

python webui.pyを実行することで、UIインターフェースを起動できます。これにより、音声クローニングと音声作成を行うことができます。音声クローニングでは、参照音声をアップロードするか、直接音声を録音することができます。

音声クローニング	音声作成

今後の予定

[x] Spark-TTSの論文を公開しました。
[ ] トレーニングコードを公開予定。
[ ] トレーニングデータセット、VoxBoxを公開予定。

引用

@misc{wang2025sparktts,
      title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, 
      author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
      year={2025},
      eprint={2503.01710},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2503.01710}, 
}