カナリーTTS 0.5bオープンソース日本語TTSモデル - 無料でデプロイ可能、プロンプトによる音質制御対応

ホーム

Canary Tts 0.5b

2121-8によって開発

sarashina2.2‑0.5b‑instruct‑v0.1に基づいて訓練された日本語TTSモデルで、プロンプトによる音質制御をサポート

音声合成

PyTorch

複数言語対応#日本語音声合成 #プロンプト制御可能な音質 #軽量TTS

ダウンロード数 244

リリース時間 : 4/20/2025

モデル概要

日本語音声合成に特化したテキスト読み上げモデルで、Parler-TTSのようなプロンプト制御メカニズムを採用し、音質の微調整が可能

モデル特徴

プロンプト制御音質

制御プロンプトと読み上げプロンプトを変更することで音質を微調整

日本語最適化

日本語音声合成向けに特別に訓練・最適化

軽量モデル

0.5Bパラメータ規模で、軽量ながら良好な性能を維持

モデル能力

日本語テキスト読み上げ

音質パラメータ調整

音声合成

使用事例

音声アプリケーション

日本語オーディオブック生成

日本語テキストを自然な音声に変換し、オーディオブック制作に利用

声色やイントネーションを調整可能な日本語読み上げ

音声アシスタント開発

日本語音声アシスタントに音声合成機能を提供

カスタマイズ可能な日本語音声出力

🚀 Canary-TTS-0.5B

このモデルは、sarashina2.2‑0.5b‑instruct‑v0.1 をベースに学習したTTSモデルです。Parler‑TTSと同じプロンプト方式を採用し、制御プロンプトと読み上げプロンプトを変更することで声質の細かな制御が可能です。

🚀 クイックスタート

Canary-TTS Index

✨ 主な機能

制御プロンプトによるピッチ、性別、ノイズの制御
読み上げプロンプトによるテキスト読み上げ
Parler‑TTS, XCodec2 のコードを基盤に構築
llama をベースにしているためLLMの技術転用が可能

📦 インストール

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用例

基本的な使用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.xcodec2.modeling_xcodec2 import XCodec2Model
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-0.5b")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-0.5b", device_map="auto", torch_dtype=torch.bfloat16)
codec = XCodec2Model.from_pretrained("HKUSTAudio/xcodec2")

description = "A man voice, with a very hight pitch, speaks in a monotone manner. The recording quality is very noises and close-sounding, indicating a good or excellent audio capture."
prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "system", "content": description},
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=256,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
output_audios = codec.decode_code(audio_tokens.unsqueeze(0).unsqueeze(0).cpu())
torchaudio.save("sample.wav", src=output_audios[0].cpu(), sample_rate=16000)

📚 ドキュメント

モデル

属性	详情
モデル名	2121‑8/canary‑tts‑0.5b
ベースモデル	sbintuitions/sarashina2.2-0.5b-instruct-v0.1
audio decoder	HKUSTAudio/xcodec2

サンプル音声

謝辞

Parler‑TTS コミュニティ
XCodec2 開発者

ライセンス

CC BY‑NC 4.0

クレジット

Audio decoder

リポジトリ: HKUSTAudio/xcodec2
ライセンス: CC BY‑NC 4.0

モデル

リポジトリ: sbintuitions/sarashina2.2-0.5b-instruct-v0.1
ライセンス: MIT License

著作権および使用に関する免責事項

以下の条件を遵守してください。

⚠️ 重要提示

本モデルの利用により得られる結果の正確性、合法性、または適切性について、作成者は一切保証しません。

本モデルを使用する際は、適用されるすべての法律や規制を遵守してください。また、生成されたコンテンツに起因する責任はすべてユーザーに帰属します。

本リポジトリおよびモデルの作成者は、著作権侵害やその他の法的問題に関する責任を一切負いません。

著作権問題が発生した場合、問題のあるリソースやデータを速やかに削除します。