Parler-TTS Mini v1微調模型 - 開源文本轉語音，支持風格提示控制輸出

首頁

Parler Tts Mini V1 Paraspeechcaps

由ajd12342開發

基於Parler-TTS Mini v1微調的文本轉語音模型，支持通過風格提示控制語音輸出

語音合成

Transformers

英語#風格可控TTS #多標籤語音生成 #情感語音合成

下載量 139

發布時間 : 2/27/2025

模型概述

該模型在ParaSpeechCaps數據集上微調，能夠通過文本風格提示（如音高、節奏、清晰度、情感等）生成豐富風格的語音輸出。

模型特點

風格控制

支持通過文本提示精確控制語音輸出的風格特徵（如音高、節奏、情感等）

大規模風格標註

基於ParaSpeechCaps數據集訓練，包含59種風格標籤的豐富標註

多模態訓練

結合文本和語音嵌入器、分類器以及音頻語言模型的新穎訓練流程

模型能力

文本轉語音

語音風格控制

多風格語音生成

使用案例

語音合成

情感化語音生成

根據文本提示生成帶有特定情感的語音

可生成悲傷、快樂等不同情感的語音輸出

風格化語音創作

為影視、遊戲等創作具有特定風格的語音

可控制語速、清晰度等參數生成專業級語音

輔助技術

無障礙語音合成

為視障用戶提供可定製的語音輸出

可根據用戶偏好調整語音特徵

🚀 Parler-TTS Mini v1 ft. ParaSpeechCaps

該項目微調了Parler-TTS Mini v1模型，基於ParaSpeechCaps數據集創建了一個文本轉語音（TTS）模型，可通過文本風格提示控制語音的豐富風格，如音調、節奏、清晰度、情感等。

🚀 快速開始

本項目微調了 parler-tts/parler-tts-mini-v1 模型，在 ParaSpeechCaps 數據集上進行訓練，創建了一個文本轉語音（TTS）模型。該模型可以通過文本風格提示（例如“一位男性說話者的語音特點是發音含糊，在清晰的環境中以沉穩的節奏說話”）來控制生成語音的豐富風格（音調、節奏、清晰度、情感等）。

ParaSpeechCaps (PSC) 是一個大規模數據集，為語音話語提供了豐富的風格註釋，支持59種風格標籤，涵蓋說話者層面的內在風格標籤和話語層面的情境風格標籤。它由人工註釋的子集 ParaSpeechCaps-Base 和自動註釋的大型子集 ParaSpeechCaps-Scaled 組成。該項目的新型管道結合了現成的文本和語音嵌入器、分類器和音頻語言模型，首次實現了為如此廣泛的風格標籤自動擴展豐富的標籤註釋。

更多信息請查看論文、代碼庫和演示網站。

✨ 主要特性

基於微調的Parler-TTS Mini v1模型，可通過文本風格提示控制語音風格。
使用ParaSpeechCaps數據集，支持59種風格標籤。
新型管道實現了豐富風格標籤的自動擴展。

📦 安裝指南

本倉庫已在Python 3.11環境下測試（conda create -n paraspeechcaps python=3.11），其他版本大概率也能正常工作。

git clone https://github.com/ajd12342/paraspeechcaps.git
cd paraspeechcaps/model/parler-tts
pip install -e .[train]

💻 使用示例

基礎用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "ajd12342/parler-tts-mini-v1-paraspeechcaps"
guidance_scale = 1.5

model = ParlerTTSForConditionalGeneration.from_pretrained(model_name).to(device)
description_tokenizer = AutoTokenizer.from_pretrained(model_name)
transcription_tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")

input_description = "In a clear environment, a male voice speaks with a sad tone.".replace('\n', ' ').rstrip()
input_transcription = "Was that your landlord?".replace('\n', ' ').rstrip()

input_description_tokenized = description_tokenizer(input_description, return_tensors="pt").to(model.device)
input_transcription_tokenized = transcription_tokenizer(input_transcription, return_tensors="pt").to(model.device)

generation = model.generate(input_ids=input_description_tokenized.input_ids, prompt_input_ids=input_transcription_tokenized.input_ids, guidance_scale=guidance_scale)

audio_arr = generation.cpu().numpy().squeeze()
sf.write("output.wav", audio_arr, model.config.sampling_rate)

對於包含基於自動語音識別（ASR）的重複採樣選擇的完整推理腳本和其他腳本，請參考代碼庫。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	parler-tts/parler-tts-mini-v1
訓練數據集	amphion/Emilia-Dataset、ParaSpeechCaps
語言	英語
庫名稱	transformers
許可證	CC BY-NC SA 4.0
任務類型	文本轉語音

引用說明

如果使用該模型、數據集或倉庫，請按以下格式引用：

@misc{diwan2025scalingrichstylepromptedtexttospeech,
      title={Scaling Rich Style-Prompted Text-to-Speech Datasets}, 
      author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi},
      year={2025},
      eprint={2503.04713},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2503.04713}, 
}