parler-tts-mini-v1-paraspeechcaps-only-base开源TTS模型 - 凭文本提示实现多样语音风格

首页

Parler Tts Mini V1 Paraspeechcaps Only Base

由 ajd12342 开发

一个通过文本风格提示控制丰富语音风格的文本转语音模型

语音合成

Transformers

英语#风格可控语音合成 #多维度语音控制 #人工标注数据集

下载量 17

发布时间 : 2/28/2025

模型简介

该模型是基于ParaSpeechCaps-Base数据集微调的文本转语音模型，能够通过风格提示控制语音的音高、节奏、清晰度和情感等特征。

模型特点

丰富的风格控制

可通过文本提示精确控制语音的音高、节奏、清晰度和情感等特征

高质量语音生成

基于人工标注数据集微调，生成语音质量较高

多样化风格标签

支持59个风格标签，涵盖说话者内在风格和语句情境风格

模型能力

文本转语音

语音风格控制

情感语音合成

使用案例

语音合成应用

有声读物生成

根据文本内容和情感提示生成富有表现力的有声读物

语音助手

为语音助手提供更自然、富有情感的语音输出

辅助技术

视障辅助

为视障用户提供更自然、更易理解的语音输出

🚀 Parler-TTS Mini v1 ft. ParaSpeechCaps-Base

Parler-TTS Mini v1 ft. ParaSpeechCaps-Base是一个文本转语音（TTS）模型。它基于parler-tts/parler-tts-mini-v1，在人工标注的ParaSpeechCaps数据集的Base子集上进行微调，能够根据文本风格提示生成具有丰富风格（音高、节奏、清晰度、情感等）的语音。

🚀 快速开始

本项目提供了一个文本转语音模型，你可以按照以下步骤进行安装和使用。

✨ 主要特性

风格丰富：能够根据文本风格提示生成具有不同风格的语音，如音高、节奏、清晰度、情感等。
数据集强大：基于ParaSpeechCaps数据集进行微调，该数据集提供了丰富的语音风格标注，支持59种风格标签。
自动化标注：采用了结合现成文本和语音嵌入器、分类器和音频语言模型的新型管道，首次实现了对多种风格标签的自动大规模标注。

📦 安装指南

本仓库已在Python 3.11环境下进行测试（conda create -n paraspeechcaps python=3.11），但大多数其他版本可能也适用。

git clone https://github.com/ajd12342/paraspeechcaps.git
cd paraspeechcaps/model/parler-tts
pip install -e .[train]

💻 使用示例

基础用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "ajd12342/parler-tts-mini-v1-paraspeechcaps-only-base"
guidance_scale = 1.5

model = ParlerTTSForConditionalGeneration.from_pretrained(model_name).to(device)
description_tokenizer = AutoTokenizer.from_pretrained(model_name)
transcription_tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")

input_description = "In a clear environment, a male voice speaks with a sad tone.".replace('\n', ' ').rstrip()
input_transcription = "Was that your landlord?".replace('\n', ' ').rstrip()

input_description_tokenized = description_tokenizer(input_description, return_tensors="pt").to(model.device)
input_transcription_tokenized = transcription_tokenizer(input_transcription, return_tensors="pt").to(model.device)

generation = model.generate(input_ids=input_description_tokenized.input_ids, prompt_input_ids=input_transcription_tokenized.input_ids, guidance_scale=guidance_scale)

audio_arr = generation.cpu().numpy().squeeze()
sf.write("output.wav", audio_arr, model.config.sampling_rate)

如需包含基于自动语音识别（ASR）的重复采样选择的完整推理脚本和其他脚本，请参考我们的代码库。

📚 详细文档

ParaSpeechCaps (PSC) 是我们的大规模数据集，为语音话语提供了丰富的风格标注，支持59种风格标签，涵盖说话者层面的内在风格标签和话语层面的情境风格标签。它由人工标注的子集ParaSpeechCaps-Base和大规模自动标注的子集ParaSpeechCaps-Scaled组成。我们结合现成文本和语音嵌入器、分类器和音频语言模型的新型管道，首次实现了对如此广泛的风格标签进行自动大规模丰富标签标注。

更多信息请查看我们的论文、代码库和演示网站。

📄 许可证

本项目采用CC BY-NC SA 4.0许可证。

📚 引用

如果您使用了此模型、数据集或仓库，请按以下方式引用我们的工作：

@misc{diwan2025scalingrichstylepromptedtexttospeech,
      title={Scaling Rich Style-Prompted Text-to-Speech Datasets}, 
      author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi},
      year={2025},
      eprint={2503.04713},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2503.04713}, 
}