canary-tts-nano-150m-beta開源日語TTS模型 - 精簡提示實現高效參數配置

首頁

Canary Tts Nano 150m Beta

由2121-8開發

基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型，通過精簡控制提示實現高效參數配置

語音合成

PyTorch

支持多種語言開源協議:MIT #日語語音合成 #精簡參數架構 #LLM遷移適配

下載量 31

發布時間 : 4/27/2025

模型概述

一個專注於日語文本轉語音的輕量級模型，移除了控制提示以適配後續微調，核心架構基於llama便於技術遷移

模型特點

精簡參數設計

通過移除控制提示層實現高效參數配置

LLM兼容架構

基於llama架構便於大語言模型技術遷移

音頻質量優化

採用OuteAI的高效音頻解碼器實現聲音合成

模型能力

日語語音合成

隨機音色生成

指定音色微調

使用案例

語音交互

虛擬助手語音

為日語虛擬助手提供基礎語音合成能力

基礎音質較粗糙但可通過微調改善

內容創作

有聲內容生成

自動將日語文本轉換為語音內容

需要配合後續微調獲得更好效果

🚀 Canary-TTS-0.5B

Canary-TTS-0.5B 是一個基於 llm-jp/llm-jp-3-150m-instruct3 訓練的 TTS 基礎模型。通過刪除控制提示減少了參數數量，為進一步的微調做準備。

🚀 快速開始

本項目提供了一個基於 llm-jp/llm-jp-3-150m-instruct3 的 TTS 模型。以下是快速開始使用該模型的步驟。

✨ 主要特性

參數優化：以追加學習為前提，通過刪除控制提示減少了參數數量。
文本朗讀：支持通過朗讀提示進行文本朗讀。
代碼基礎：基於 Parler‑TTS 和 WavTokenizer 的代碼構建。
技術複用：由於基於 llama，可複用 LLM 的技術。

📦 安裝指南

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用示例

基礎用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.wavtokenizer import WavDecoder
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-0.5b")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-0.5b", device_map="auto", torch_dtype=torch.bfloat16)
cache_dir = os.path.join(os.path.join(os.path.expanduser("~"), ".cache"),"outeai", "tts", "wavtokenizer_75_token_interface")
decoder = WavDecoder.from_pretrained(os.path.join(cache_dir, 'decoder')).to(model.device)

prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.9,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
features = decoder.codes_to_features(audio_tokens.unsqueeze(0).unsqueeze(0))
output_audios = decoder(features, bandwidth_id=torch.tensor([0], device=features.device))
torchaudio.save("sample.wav", src=output_audios.cpu(), sample_rate=24000)