🚀 Parler-TTS Mini v1 ft. ParaSpeechCaps
このモデルは、parler-tts/parler-tts-mini-v1を、独自のParaSpeechCapsデータセットでファインチューニングして作成されました。これにより、テキスト形式のスタイルプロンプト(例:'男性の話者の音声は、はっきりした環境でゆっくりと流暢に話される')を使用して、豊富なスタイル(ピッチ、リズム、明瞭さ、感情など)を制御しながら音声を生成できるTTSモデルが得られます。
ParaSpeechCaps (PSC) は、音声発話に対して豊富なスタイルアノテーションを提供する大規模なデータセットです。話者レベルの固有スタイルタグと発話レベルの状況スタイルタグを含む59種類のスタイルタグをサポートしています。このデータセットは、人間によるアノテーションが行われたサブセットParaSpeechCaps-Baseと、自動的にアノテーションが行われた大規模なサブセットParaSpeechCaps-Scaledから構成されています。独自のパイプラインでは、既存のテキストおよび音声埋め込みモデル、分類器、音声言語モデルを組み合わせることで、このような多様なスタイルタグに対して初めて自動的に豊富なタグアノテーションを拡張することができます。
詳細については、論文、コードベース、デモサイトを参照してください。
📦 インストール
このリポジトリはPython 3.11 (conda create -n paraspeechcaps python=3.11
) でテストされていますが、他のバージョンでも動作する可能性があります。
git clone https://github.com/ajd12342/paraspeechcaps.git
cd paraspeechcaps/model/parler-tts
pip install -e .[train]
💻 使用例
基本的な使用法
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "ajd12342/parler-tts-mini-v1-paraspeechcaps"
guidance_scale = 1.5
model = ParlerTTSForConditionalGeneration.from_pretrained(model_name).to(device)
description_tokenizer = AutoTokenizer.from_pretrained(model_name)
transcription_tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
input_description = "In a clear environment, a male voice speaks with a sad tone.".replace('\n', ' ').rstrip()
input_transcription = "Was that your landlord?".replace('\n', ' ').rstrip()
input_description_tokenized = description_tokenizer(input_description, return_tensors="pt").to(model.device)
input_transcription_tokenized = transcription_tokenizer(input_transcription, return_tensors="pt").to(model.device)
generation = model.generate(input_ids=input_description_tokenized.input_ids, prompt_input_ids=input_transcription_tokenized.input_ids, guidance_scale=guidance_scale)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("output.wav", audio_arr, model.config.sampling_rate)
完全な推論スクリプト(ASRベースの選択や繰り返しサンプリングを含む)やその他のスクリプトについては、コードベースを参照してください。
📄 ライセンス
このモデルはCC BY-NC SA 4.0ライセンスの下で提供されています。
📚 引用
このモデル、データセット、またはリポジトリを使用する場合は、以下のように引用してください。
@misc{diwan2025scalingrichstylepromptedtexttospeech,
title={Scaling Rich Style-Prompted Text-to-Speech Datasets},
author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi},
year={2025},
eprint={2503.04713},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2503.04713},
}
📋 モデル情報
属性 |
详情 |
モデルタイプ |
Text-to-Speech |
ベースモデル |
parler-tts/parler-tts-mini-v1 |
データセット |
amphion/Emilia-Dataset、ParaSpeechCaps |
言語 |
en |
ライブラリ名 |
transformers |
ライセンス |
cc-by-nc-sa-4.0 |
パイプラインタグ |
text-to-speech |