Vi-SparkTTS-0.5B开源文本转语音系统 - 高精度自然流畅语音合成

首页

Vi SparkTTS 0.5B

由 DragonLineageAI 开发

Spark-TTS 是一款先进的文本转语音系统，利用大语言模型（LLM）的强大能力实现高精度且自然流畅的语音合成。

语音合成

Safetensors

#越南语语音合成 #大语言模型驱动 #零样本克隆

下载量 3,804

发布时间 : 3/31/2025

模型简介

基于viVoice越南语数据集训练的高质量文本转语音系统，专为研究和生产环境设计，兼具高效性、灵活性和强大功能。

模型特点

高质量语音合成

利用大语言模型实现高精度且自然流畅的语音合成

专业数据集训练

基于viVoice越南语专业数据集训练

研究生产两用

专为研究和生产环境设计，兼具高效性和灵活性

模型能力

越南语文本转语音

语音克隆

语音合成

使用案例

语音合成应用

语音助手

为越南语语音助手提供自然语音输出

高自然度的语音输出

有声读物

将越南语文本转换为有声读物

流畅自然的朗读效果

🚀 Spark TTS Vietnamese

Spark-TTS是一个先进的文本转语音系统，它借助大语言模型（LLM）的强大能力，实现了高度准确且自然的语音合成。该系统专为研究和生产使用而设计，具备高效、灵活和强大的特点。此模型基于viVoice越南语数据集进行训练。

🚀 快速开始

安装依赖

首先，安装所需的软件包：

pip install --upgrade transformers accelerate

文本转语音

我们对代码进行了定制，这样你可以使用Hugging Face的Transformer库进行推理，而无需安装其他任何东西。

from transformers import AutoProcessor, AutoModel, AutoTokenizer
import soundfile as sf
import torch
import numpy as np

device = "cuda"
model_id = "DragonLineageAI/Vi-SparkTTS-0.5B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModel.from_pretrained(model_id, trust_remote_code=True).eval()
processor.model = model
 
prompt_audio_path = "path_to_audio_path" # CHANGE TO YOUR ACTUAL PATH
prompt_transcript = "text corresponding to prompt audio" # Optional
text_input = "xin chào mọi người chúng tôi là Nguyễn Công Tú Anh và Chu Văn An đến từ dragonlineageai"
 
inputs = processor(
    text=text_input.lower(),
    prompt_speech_path=prompt_audio_path,
    prompt_text=prompt_transcript,
    return_tensors="pt"
).to(device)
global_tokens_prompt = inputs.pop("global_token_ids_prompt", None)
 
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=3000,
        do_sample=True,
        temperature=0.8,
        top_k=50,
        top_p=0.95,
        eos_token_id=processor.tokenizer.eos_token_id,  
        pad_token_id=processor.tokenizer.pad_token_id  
    )
       
output_clone = processor.decode(
    generated_ids=output_ids,
    global_token_ids_prompt=global_tokens_prompt,
    input_ids_len=inputs["input_ids"].shape[-1]
)
 
sf.write("output_cloned.wav", output_clone["audio"], output_clone["sampling_rate"])

微调

你可以使用任何数据集对该模型进行微调，以提高质量或在新语言上进行训练。训练代码

✨ 主要特性

使用大语言模型（LLM）实现高度准确且自然的语音合成。
专为研究和生产使用而设计，具备高效、灵活和强大的特点。

📦 安装指南

pip install --upgrade transformers accelerate

💻 使用示例

基础用法

from transformers import AutoProcessor, AutoModel, AutoTokenizer
import soundfile as sf
import torch
import numpy as np

device = "cuda"
model_id = "DragonLineageAI/Vi-SparkTTS-0.5B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModel.from_pretrained(model_id, trust_remote_code=True).eval()
processor.model = model
 
prompt_audio_path = "path_to_audio_path" # CHANGE TO YOUR ACTUAL PATH
prompt_transcript = "text corresponding to prompt audio" # Optional
text_input = "xin chào mọi người chúng tôi là Nguyễn Công Tú Anh và Chu Văn An đến từ dragonlineageai"
 
inputs = processor(
    text=text_input.lower(),
    prompt_speech_path=prompt_audio_path,
    prompt_text=prompt_transcript,
    return_tensors="pt"
).to(device)
global_tokens_prompt = inputs.pop("global_token_ids_prompt", None)
 
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=3000,
        do_sample=True,
        temperature=0.8,
        top_k=50,
        top_p=0.95,
        eos_token_id=processor.tokenizer.eos_token_id,  
        pad_token_id=processor.tokenizer.pad_token_id  
    )
       
output_clone = processor.decode(
    generated_ids=output_ids,
    global_token_ids_prompt=global_tokens_prompt,
    input_ids_len=inputs["input_ids"].shape[-1]
)
 
sf.write("output_cloned.wav", output_clone["audio"], output_clone["sampling_rate"])