S

Spark TTS 0.5B

prince-canumaによって開発
Spark-TTSは大規模言語モデルを基盤とした先進的なテキスト音声変換システムで、高精度で自然な音声合成を実現します。
ダウンロード数 20
リリース時間 : 5/8/2025

モデル概要

Spark-TTSは大規模言語モデル(LLM)を基盤としたテキスト音声変換システムで、効率性、柔軟性、高性能を目的に設計されており、研究と実用の両シナリオに適しています。音声クローニングと制御可能な音声生成をサポートします。

モデル特徴

簡潔で効率的
完全にQwen2.5アーキテクチャに基づいており、フローマッチングなどの追加生成モデルを必要とせず、大規模言語モデルで直接オーディオコードを予測して音声を再構築し、プロセスを簡素化して効率を向上させます。
高品質音声クローニング
ゼロショット音声クローニングをサポートし、ターゲット音声のトレーニングデータがなくても話者特徴を再現でき、特に言語横断やコードスイッチングのシナリオに適しています。
二言語サポート
中英語混合合成をサポートし、言語横断シナリオでも高い自然さと正確性を維持します。
制御可能な音声生成
性別、ピッチ、話速などのパラメータを調整して仮想話者を作成できます。

モデル能力

テキスト音声変換
音声クローニング
音声パラメータ制御
中英語混合合成

使用事例

音声合成
音声クローニング
少量の参照音声を使用して特定話者の音声をクローニング
ターゲット話者の特徴を持つ音声を生成
仮想話者生成
パラメータ調整でカスタム仮想話者を作成
特定の性別、ピッチ、話速特徴を持つ音声を生成
言語横断アプリケーション
中英語混合合成
単一音声内で中英語をスムーズに切り替え
音声の自然さと一貫性を維持
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase