canary-tts-nano-150m-beta开源日语TTS模型 - 精简提示实现高效参数配置

首页

Canary Tts Nano 150m Beta

由 2121-8 开发

基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS基础模型，通过精简控制提示实现高效参数配置

语音合成

PyTorch

支持多种语言开源协议:MIT #日语语音合成 #精简参数架构 #LLM迁移适配

下载量 31

发布时间 : 4/27/2025

模型简介

一个专注于日语文本转语音的轻量级模型，移除了控制提示以适配后续微调，核心架构基于llama便于技术迁移

模型特点

精简参数设计

通过移除控制提示层实现高效参数配置

LLM兼容架构

基于llama架构便于大语言模型技术迁移

音频质量优化

采用OuteAI的高效音频解码器实现声音合成

模型能力

日语语音合成

随机音色生成

指定音色微调

使用案例

语音交互

虚拟助手语音

为日语虚拟助手提供基础语音合成能力

基础音质较粗糙但可通过微调改善

内容创作

有声内容生成

自动将日语文本转换为语音内容

需要配合后续微调获得更好效果

🚀 Canary-TTS-0.5B

Canary-TTS-0.5B 是一个基于 llm-jp/llm-jp-3-150m-instruct3 训练的 TTS 基础模型。通过删除控制提示减少了参数数量，为进一步的微调做准备。

🚀 快速开始

本项目提供了一个基于 llm-jp/llm-jp-3-150m-instruct3 的 TTS 模型。以下是快速开始使用该模型的步骤。

✨ 主要特性

参数优化：以追加学习为前提，通过删除控制提示减少了参数数量。
文本朗读：支持通过朗读提示进行文本朗读。
代码基础：基于 Parler‑TTS 和 WavTokenizer 的代码构建。
技术复用：由于基于 llama，可复用 LLM 的技术。

📦 安装指南

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用示例

基础用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.wavtokenizer import WavDecoder
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-0.5b")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-0.5b", device_map="auto", torch_dtype=torch.bfloat16)
cache_dir = os.path.join(os.path.join(os.path.expanduser("~"), ".cache"),"outeai", "tts", "wavtokenizer_75_token_interface")
decoder = WavDecoder.from_pretrained(os.path.join(cache_dir, 'decoder')).to(model.device)

prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.9,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
features = decoder.codes_to_features(audio_tokens.unsqueeze(0).unsqueeze(0))
output_audios = decoder(features, bandwidth_id=torch.tensor([0], device=features.device))
torchaudio.save("sample.wav", src=output_audios.cpu(), sample_rate=24000)