canary-tts-150m開源日語語音合成系統 - 免費部署，支持提示詞調控音質

首頁

Canary Tts 150m

由2121-8開發

基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS語音合成系統，支持通過提示詞調控音質

語音合成

PyTorch

支持多種語言#日語語音合成 #提示詞可控TTS #輕量級語音生成

下載量 36

發布時間 : 4/22/2025

模型概述

實驗性日語語音合成模型，採用Parler-TTS提示詞架構和XCodec2音頻解碼器，可通過控制提示調節音高與背景噪聲

模型特點

提示詞控制

通過修改控制提示與朗讀提示實現音質的精細調控

輕量化設計

150M參數規模適合資源受限環境部署

高質量音頻輸出

採用XCodec2音頻解碼器保障語音質量

模型能力

日語語音合成

音調調節

背景噪聲控制

文本轉語音

使用案例

語音交互

虛擬助手

為日語虛擬助手提供自然語音輸出

可生成帶情感特徵的語音

內容創作

有聲內容生成

自動將日語文本轉換為語音

支持不同音色和語調的語音輸出

🚀 Canary-TTS-150M

Canary-TTS-150M 是一個基於 llm-jp/llm-jp-3-150m-instruct3 訓練的文本轉語音（TTS）模型。它採用了與 Parler‑TTS 相同的提示方式，通過更改控制提示和朗讀提示，可以對音質進行精細控制。該模型是在訓練 Canary-TTS 0.5B 時創建的實驗模型，因此推薦使用 Canary-TTS 0.5B。

🚀 快速開始

Canary-TTS 索引

✨ 主要特性

通過控制提示控制音高和噪聲。
通過朗讀提示進行文本朗讀。
基於 Parler‑TTS 和 XCodec2 的代碼構建。
基於 llama，可轉移大語言模型（LLM）技術。

📦 安裝指南

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用示例

基礎用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.xcodec2.modeling_xcodec2 import XCodec2Model
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-150m")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-150m", device_map="auto", torch_dtype=torch.bfloat16)
codec = XCodec2Model.from_pretrained("HKUSTAudio/xcodec2")

description = "A man voice, with a very hight pitch, speaks in a monotone manner. The recording quality is very noises and close-sounding, indicating a good or excellent audio capture."
prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "system", "content": description},
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=256,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
output_audios = codec.decode_code(audio_tokens.unsqueeze(0).unsqueeze(0).cpu())
torchaudio.save("sample.wav", src=output_audios[0].cpu(), sample_rate=16000)