canary-tts-0.5b开源日语TTS模型 - 免费部署，支持按提示控制音质

首页

Canary Tts 0.5b

由 2121-8 开发

基于sarashina2.2‑0.5b‑instruct‑v0.1训练的日语TTS模型，支持通过提示控制音质

语音合成

PyTorch

支持多种语言#日语语音合成 #提示可控音质 #轻量级TTS

下载量 244

发布时间 : 4/20/2025

模型简介

一个专注于日语语音合成的文本转语音模型，采用类似Parler-TTS的提示控制机制，可实现音质的精细调控

模型特点

提示控制音质

通过修改控制提示和朗读提示实现音质的精细调控

日语优化

专门针对日语语音合成进行训练和优化

轻量级模型

0.5B参数规模，相对轻量但保持良好性能

模型能力

日语文本转语音

音质参数调控

语音合成

使用案例

语音应用

日语有声读物生成

将日语文本转换为自然语音，用于有声读物制作

可调节音色和语调的日语朗读

语音助手开发

为日语语音助手提供语音合成能力

可定制的日语语音输出

🚀 Canary-TTS-0.5B

Canary-TTS-0.5B 是一个基于文本转语音（TTS）技术的模型，它以 sbintuitions/sarashina2.2-0.5b-instruct-v0.1 为基础模型进行训练。该模型采用了与 Parler-TTS 相同的提示方式，通过更改控制提示和朗读提示，能够对声音质量进行精细控制。

🚀 快速开始

模型索引

✨ 主要特性

通过控制提示控制音高、性别和噪音。
通过朗读提示进行文本朗读。
基于 Parler-TTS 和 XCodec2 的代码构建。
基于 llama 构建，可转移 LLM 技术。

📦 安装指南

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用示例

基础用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.xcodec2.modeling_xcodec2 import XCodec2Model
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-0.5b")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-0.5b", device_map="auto", torch_dtype=torch.bfloat16)
codec = XCodec2Model.from_pretrained("HKUSTAudio/xcodec2")

description = "A man voice, with a very hight pitch, speaks in a monotone manner. The recording quality is very noises and close-sounding, indicating a good or excellent audio capture."
prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "system", "content": description},
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=256,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
output_audios = codec.decode_code(audio_tokens.unsqueeze(0).unsqueeze(0).cpu())
torchaudio.save("sample.wav", src=output_audios[0].cpu(), sample_rate=16000)