ホーム

Spark TTS 0.5B

prince-canumaによって開発

Spark-TTSは大規模言語モデルを基盤とした先進的なテキスト音声変換システムで、高精度で自然な音声合成を実現します。

音声合成

Safetensors

複数言語対応#ゼロショット音声クローニング #中英混合合成 #LLM音声生成

ダウンロード数 20

リリース時間 : 5/8/2025

モデル概要

Spark-TTSは大規模言語モデル(LLM)を基盤としたテキスト音声変換システムで、効率性、柔軟性、高性能を目的に設計されており、研究と実用の両シナリオに適しています。音声クローニングと制御可能な音声生成をサポートします。

モデル特徴

簡潔で効率的

完全にQwen2.5アーキテクチャに基づいており、フローマッチングなどの追加生成モデルを必要とせず、大規模言語モデルで直接オーディオコードを予測して音声を再構築し、プロセスを簡素化して効率を向上させます。

高品質音声クローニング

ゼロショット音声クローニングをサポートし、ターゲット音声のトレーニングデータがなくても話者特徴を再現でき、特に言語横断やコードスイッチングのシナリオに適しています。

二言語サポート

中英語混合合成をサポートし、言語横断シナリオでも高い自然さと正確性を維持します。

制御可能な音声生成

性別、ピッチ、話速などのパラメータを調整して仮想話者を作成できます。

モデル能力

テキスト音声変換

音声クローニング

音声パラメータ制御

中英語混合合成

使用事例

音声合成

音声クローニング

少量の参照音声を使用して特定話者の音声をクローニング

ターゲット話者の特徴を持つ音声を生成

仮想話者生成

パラメータ調整でカスタム仮想話者を作成

特定の性別、ピッチ、話速特徴を持つ音声を生成

言語横断アプリケーション

中英語混合合成

単一音声内で中英語をスムーズに切り替え

音声の自然さと一貫性を維持

🚀 Spark-TTS

Spark-TTSは、大規模言語モデル（LLM）の力を活用した高度なテキスト読み上げシステムです。高精度で自然な音声合成を実現し、研究や本番環境での使用に効率的で柔軟かつ強力なモデルです。

Spark-TTS

公式モデル
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

✨ 主な機能

🔗 関連リンク

概要

主要な特徴

シンプルで効率的：Qwen2.5のみをベースに構築され、flow matchingなどの追加の生成モデルを必要としません。音響特徴を生成するために別のモデルに依存する代わりに、LLMによって予測されたコードから直接音声を再構築します。このアプローチにより、プロセスが合理化され、効率が向上し、複雑さが軽減されます。
高品質な音声クローニング：ゼロショット音声クローニングをサポートしており、特定の音声のトレーニングデータがなくても話者の声を再現できます。これは、多言語やコードスイッチングのシナリオに最適であり、それぞれの言語や声に対して別々のトレーニングを必要とせずに、言語や声の間をシームレスに切り替えることができます。
バイリンガル対応：中国語と英語の両方をサポートし、多言語やコードスイッチングのシナリオでのゼロショット音声クローニングが可能です。これにより、モデルは複数の言語で高い自然性と精度で音声合成を行うことができます。
制御可能な音声生成：性別、ピッチ、話す速度などのパラメータを調整して、仮想話者を作成することができます。

音声クローニングの推論概要

制御可能な生成の推論概要

📦 インストール

クローンとインストール

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

Condaのインストール

https://docs.conda.io/en/latest/miniconda.html を参照してください。

Conda環境の作成

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 中国本土にいる場合は、以下のようにミラーを設定できます。
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

モデルのダウンロード

Pythonを使用したダウンロード

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

git cloneを使用したダウンロード

mkdir -p pretrained_models

# git-lfsがインストールされていることを確認してください (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

💻 使用例

基本的な使用法

以下のコマンドでデモを実行できます。

cd example
bash infer.sh

または、コマンドラインで以下のコマンドを直接実行して推論を行うこともできます。

python -m cli.inference \
    --text "text to synthesis." \
    --device 0 \
    --save_dir "path/to/save/audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "transcript of the prompt audio" \
    --prompt_speech_path "path/to/prompt_audio"

高度な使用法

python webui.py を実行することで、UIインターフェースを起動できます。これにより、音声クローニングと音声作成を行うことができます。音声クローニングでは、参照音声をアップロードするか、直接音声を録音することができます。

音声クローニング	音声作成

📄 ライセンス

このモデルのライセンスは、一部のトレーニングデータのライセンス条項により、Apache 2.0からCC BY - NC - SAに更新されました。

主な変更点：

このモデルは非商用目的での使用のみが許可されます。
モデルを修正または派生させた場合、それらもCC BY - NC - SA 4.0の下で公開する必要があります。
モデルを使用または修正する際には、適切な帰属表示が必要です。

新しいライセンス条項に準拠するようにしてください。

引用

@misc{wang2025sparktts,
      title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, 
      author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
      year={2025},
      eprint={2503.01710},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2503.01710}, 
}