S

Spark TTS 0.5B

由prince-canuma開發
Spark-TTS是基於大語言模型的先進文本轉語音系統,能夠實現高精度、自然流暢的語音合成。
下載量 20
發布時間 : 5/8/2025

模型概述

Spark-TTS是基於大語言模型(LLM)的文本轉語音系統,專為高效性、靈活性和強大性能而設計,適用於研究和生產場景。支持音色克隆和可控語音生成。

模型特點

簡潔高效
完全基於Qwen2.5架構,無需依賴流匹配等額外生成模型,通過大語言模型直接預測音頻編碼重構語音,簡化流程並提升效率。
高質量音色克隆
支持零樣本音色克隆,即使沒有目標音色的訓練數據也能復現說話人特徵,特別適合跨語言和語碼轉換場景。
雙語支持
支持中英文混合合成,在跨語言場景下保持高自然度和準確性。
可控語音生成
可通過調節性別、音高、語速等參數創建虛擬說話人。

模型能力

文本轉語音
音色克隆
語音參數控制
中英文混合合成

使用案例

語音合成
音色克隆
使用少量參考音頻克隆特定說話人的音色
生成具有目標說話人特徵的語音
虛擬說話人生成
通過調節參數創建自定義虛擬說話人
生成具有特定性別、音高和語速特徵的語音
跨語言應用
中英文混合合成
在單一語音中流暢切換中英文
保持語音自然度和一致性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase