Vi-SparkTTS-0.5Bオープンソーステキスト読み上げシステム

ホーム

Vi SparkTTS 0.5B

DragonLineageAIによって開発

Spark-TTSは、大規模言語モデル（LLM）の強力な能力を活用して、高精度で自然な音声合成を実現する先進的なテキスト読み上げシステムです。

音声合成

Safetensors

#ベトナム語音声合成 #大規模言語モデル駆動 #ゼロショットクローン

ダウンロード数 3,804

リリース時間 : 3/31/2025

モデル概要

viVoiceベトナム語データセットでトレーニングされた高品質なテキスト読み上げシステムで、研究と生産環境の両方に設計されており、効率性、柔軟性、強力な機能を兼ね備えています。

モデル特徴

高品質音声合成

大規模言語モデルを利用して高精度で自然な音声合成を実現

専門データセットトレーニング

viVoiceベトナム語専門データセットでトレーニング

研究・生産両用

研究と生産環境向けに設計され、効率性と柔軟性を兼ね備えています

モデル能力

ベトナム語テキスト読み上げ

音声クローン

音声合成

使用事例

音声合成アプリケーション

音声アシスタント

ベトナム語音声アシスタントに自然な音声出力を提供

高自然性の音声出力

オーディオブック

ベトナム語テキストをオーディオブックに変換

滑らかで自然な朗読効果

🚀 Spark TTS Vietnamese

Spark-TTSは、大規模言語モデル（LLM）の力を活用した高度なテキスト読み上げシステムです。高精度で自然な音声合成を実現します。研究や本番環境での使用に効率的、柔軟かつ強力なモデルです。このモデルはviVoiceベトナム語データセットを使って学習されています。

🚀 クイックスタート

このセクションでは、Spark TTS Vietnameseの使用方法を説明します。

📦 インストール

まず、必要なパッケージをインストールします。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

テキスト読み上げの基本的な使用例です。コードをカスタマイズしているため、追加のインストールなしでHugging FaceのTransformerライブラリを使用して推論ができます。

from transformers import AutoProcessor, AutoModel, AutoTokenizer
import soundfile as sf
import torch
import numpy as np

device = "cuda"
model_id = "DragonLineageAI/Vi-SparkTTS-0.5B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModel.from_pretrained(model_id, trust_remote_code=True).eval()
processor.model = model
 
prompt_audio_path = "path_to_audio_path" # CHANGE TO YOUR ACTUAL PATH
prompt_transcript = "text corresponding to prompt audio" # Optional
text_input = "xin chào mọi người chúng tôi là Nguyễn Công Tú Anh và Chu Văn An đến từ dragonlineageai"
 
inputs = processor(
    text=text_input.lower(),
    prompt_speech_path=prompt_audio_path,
    prompt_text=prompt_transcript,
    return_tensors="pt"
).to(device)
global_tokens_prompt = inputs.pop("global_token_ids_prompt", None)
 
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=3000,
        do_sample=True,
        temperature=0.8,
        top_k=50,
        top_p=0.95,
        eos_token_id=processor.tokenizer.eos_token_id,  
        pad_token_id=processor.tokenizer.pad_token_id  
    )
       
output_clone = processor.decode(
    generated_ids=output_ids,
    global_token_ids_prompt=global_tokens_prompt,
    input_ids_len=inputs["input_ids"].shape[-1]
)
 
sf.write("output_cloned.wav", output_clone["audio"], output_clone["sampling_rate"])