S

Spark TTS 0.5B

unslothによって開発
Spark-TTSは、大規模言語モデル(LLM)に基づく高効率のテキスト音声変換システムで、英語と中国語のバイリンガル合成とゼロショット音声クローニングをサポートしています。
ダウンロード数 116
リリース時間 : 5/15/2025

モデル概要

Spark-TTSは、大規模言語モデル(LLM)の強力な能力を活用して、高精度で自然な音声合成を実現する先進的なテキスト音声変換システムです。高効率、柔軟性、機能性が高く、研究や実運用環境に適しています。

モデル特徴

高効率でシンプル
完全にQwen2.5に基づいて構築されており、追加の生成モデルは必要ありません。LLMが予測したコードから直接音声を再構築することで、プロセスを簡素化し、効率を向上させます。
高品質の音声クローニング
ゼロショット音声クローニングをサポートしており、特定の音声の学習データがなくても話者の声を複製することができます。
バイリンガル対応
中国語と英語をサポートし、言語間およびコードスイッチングのゼロショット音声クローニングが可能です。
制御可能な音声生成
性別、音高、話速などのパラメータを調整することで、仮想話者を作成することができます。

モデル能力

テキスト音声合成
ゼロショット音声クローニング
言語間音声合成
音声パラメータ制御

使用事例

音声合成
個性的な音声アシスタント
バーチャルアシスタントに自然で流暢な個性的な音声を作成する
高い自然度と正確度の音声出力
オーディオブック制作
テキスト内容を自然な音声に変換する
複数の言語と音声スタイルをサポート
音声クローニング
音声複製
少量のサンプルに基づいて特定の話者の音声特徴を複製する
学習なしで高い類似度のクローニングが可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase