TGiangVoiceのSpark - TTSオープンソーステキスト音声変換システム

ホーム

Tgiangvoice

thinhkosayによって開発

Spark-TTSは、大規模言語モデル（LLM）の強力な能力を活用し、高精度で自然な音声合成を実現する先進的なテキスト読み上げシステムです。

音声合成

Safetensors

#ベトナム語音声合成 #大規模言語モデル駆動 #ゼロショットクローニング

ダウンロード数 16

リリース時間 : 4/19/2025

モデル概要

このシステムは、効率性、柔軟性、強力なパフォーマンスを考慮して設計されており、研究および生産用途に適しています。このモデルはviVoiceベトナム語データセットでトレーニングされています。

モデル特徴

高品質音声合成

大規模言語モデルを利用して高精度で自然な音声合成を実現

効率的で柔軟

効率性と柔軟性を考慮して設計されており、研究および生産用途に適しています

ベトナム語サポート

ベトナム語に特化して最適化された音声合成モデル

モデル能力

ベトナム語テキスト読み上げ

音声クローニング

音声合成

使用事例

音声アプリケーション

音声アシスタント

ベトナム語音声アシスタントに自然な音声出力を提供

自然で流暢なベトナム語音声を生成

オーディオブック

ベトナム語テキストをオーディオブックに変換

高品質な音声出力

音声クローニング

少量のサンプルに基づいて特定の音声をクローニング

参照音声に似た出力を生成

🚀 Spark TTS Vietnamese

Spark-TTSは、大規模言語モデル（LLM）の力を活用した高度なテキスト読み上げシステムです。高精度で自然な音声合成を実現し、研究や実運用の両方において、効率的で柔軟かつ強力な性能を発揮します。このモデルは、viVoiceベトナム語データセットを用いて学習されています。

🚀 クイックスタート

📦 インストール

まず、必要なパッケージをインストールします。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

テキスト読み上げの推論を行うには、Hugging FaceのTransformerライブラリを使用することができます。

from transformers import AutoProcessor, AutoModel, AutoTokenizer
import soundfile as sf
import torch
import numpy as np

device = "cuda"
model_id = "DragonLineageAI/Vi-SparkTTS-0.5B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModel.from_pretrained(model_id, trust_remote_code=True).eval()
processor.model = model
 
prompt_audio_path = "path_to_audio_path" # CHANGE TO YOUR ACTUAL PATH
prompt_transcript = "text corresponding to prompt audio" # Optional
text_input = "xin chào mọi người chúng tôi là Nguyễn Công Tú Anh và Chu Văn An đến từ dragonlineageai"
 
inputs = processor(
    text=text_input.lower(),
    prompt_speech_path=prompt_audio_path,
    prompt_text=prompt_transcript,
    return_tensors="pt"
).to(device)
global_tokens_prompt = inputs.pop("global_token_ids_prompt", None)
 
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=3000,
        do_sample=True,
        temperature=0.8,
        top_k=50,
        top_p=0.95,
        eos_token_id=processor.tokenizer.eos_token_id,  
        pad_token_id=processor.tokenizer.pad_token_id  
    )
       
output_clone = processor.decode(
    generated_ids=output_ids,
    global_token_ids_prompt=global_tokens_prompt,
    input_ids_len=inputs["input_ids"].shape[-1]
)
 
sf.write("output_cloned.wav", output_clone["audio"], output_clone["sampling_rate"])