S

Spark TTS 0.5B

Developed by prince-canuma
Spark-TTSは大規模言語モデルを基盤とした先進的なテキスト音声変換システムで、高精度で自然な音声合成を実現します。
Downloads 20
Release Time : 5/8/2025

Model Overview

Spark-TTSは大規模言語モデル(LLM)を基盤としたテキスト音声変換システムで、効率性、柔軟性、高性能を目的に設計されており、研究と実用の両シナリオに適しています。音声クローニングと制御可能な音声生成をサポートします。

Model Features

簡潔で効率的
完全にQwen2.5アーキテクチャに基づいており、フローマッチングなどの追加生成モデルを必要とせず、大規模言語モデルで直接オーディオコードを予測して音声を再構築し、プロセスを簡素化して効率を向上させます。
高品質音声クローニング
ゼロショット音声クローニングをサポートし、ターゲット音声のトレーニングデータがなくても話者特徴を再現でき、特に言語横断やコードスイッチングのシナリオに適しています。
二言語サポート
中英語混合合成をサポートし、言語横断シナリオでも高い自然さと正確性を維持します。
制御可能な音声生成
性別、ピッチ、話速などのパラメータを調整して仮想話者を作成できます。

Model Capabilities

テキスト音声変換
音声クローニング
音声パラメータ制御
中英語混合合成

Use Cases

音声合成
音声クローニング
少量の参照音声を使用して特定話者の音声をクローニング
ターゲット話者の特徴を持つ音声を生成
仮想話者生成
パラメータ調整でカスタム仮想話者を作成
特定の性別、ピッチ、話速特徴を持つ音声を生成
言語横断アプリケーション
中英語混合合成
単一音声内で中英語をスムーズに切り替え
音声の自然さと一貫性を維持
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase