parler-tts-mini-v1-paraspeechcaps-only-base開源TTS模型 - 憑文本提示實現多樣語音風格

首頁

Parler Tts Mini V1 Paraspeechcaps Only Base

由ajd12342開發

一個通過文本風格提示控制豐富語音風格的文本轉語音模型

語音合成

Transformers

英語#風格可控語音合成 #多維度語音控制 #人工標註數據集

下載量 17

發布時間 : 2/28/2025

模型概述

該模型是基於ParaSpeechCaps-Base數據集微調的文本轉語音模型，能夠通過風格提示控制語音的音高、節奏、清晰度和情感等特徵。

模型特點

豐富的風格控制

可通過文本提示精確控制語音的音高、節奏、清晰度和情感等特徵

高質量語音生成

基於人工標註數據集微調，生成語音質量較高

多樣化風格標籤

支持59個風格標籤，涵蓋說話者內在風格和語句情境風格

模型能力

文本轉語音

語音風格控制

情感語音合成

使用案例

語音合成應用

有聲讀物生成

根據文本內容和情感提示生成富有表現力的有聲讀物

語音助手

為語音助手提供更自然、富有情感的語音輸出

輔助技術

視障輔助

為視障用戶提供更自然、更易理解的語音輸出

🚀 Parler-TTS Mini v1 ft. ParaSpeechCaps-Base

Parler-TTS Mini v1 ft. ParaSpeechCaps-Base是一個文本轉語音（TTS）模型。它基於parler-tts/parler-tts-mini-v1，在人工標註的ParaSpeechCaps數據集的Base子集上進行微調，能夠根據文本風格提示生成具有豐富風格（音高、節奏、清晰度、情感等）的語音。

🚀 快速開始

本項目提供了一個文本轉語音模型，你可以按照以下步驟進行安裝和使用。

✨ 主要特性

風格豐富：能夠根據文本風格提示生成具有不同風格的語音，如音高、節奏、清晰度、情感等。
數據集強大：基於ParaSpeechCaps數據集進行微調，該數據集提供了豐富的語音風格標註，支持59種風格標籤。
自動化標註：採用了結合現成文本和語音嵌入器、分類器和音頻語言模型的新型管道，首次實現了對多種風格標籤的自動大規模標註。

📦 安裝指南

本倉庫已在Python 3.11環境下進行測試（conda create -n paraspeechcaps python=3.11），但大多數其他版本可能也適用。

git clone https://github.com/ajd12342/paraspeechcaps.git
cd paraspeechcaps/model/parler-tts
pip install -e .[train]

💻 使用示例

基礎用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "ajd12342/parler-tts-mini-v1-paraspeechcaps-only-base"
guidance_scale = 1.5

model = ParlerTTSForConditionalGeneration.from_pretrained(model_name).to(device)
description_tokenizer = AutoTokenizer.from_pretrained(model_name)
transcription_tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")

input_description = "In a clear environment, a male voice speaks with a sad tone.".replace('\n', ' ').rstrip()
input_transcription = "Was that your landlord?".replace('\n', ' ').rstrip()

input_description_tokenized = description_tokenizer(input_description, return_tensors="pt").to(model.device)
input_transcription_tokenized = transcription_tokenizer(input_transcription, return_tensors="pt").to(model.device)

generation = model.generate(input_ids=input_description_tokenized.input_ids, prompt_input_ids=input_transcription_tokenized.input_ids, guidance_scale=guidance_scale)

audio_arr = generation.cpu().numpy().squeeze()
sf.write("output.wav", audio_arr, model.config.sampling_rate)

如需包含基於自動語音識別（ASR）的重複採樣選擇的完整推理腳本和其他腳本，請參考我們的代碼庫。

📚 詳細文檔

ParaSpeechCaps (PSC) 是我們的大規模數據集，為語音話語提供了豐富的風格標註，支持59種風格標籤，涵蓋說話者層面的內在風格標籤和話語層面的情境風格標籤。它由人工標註的子集ParaSpeechCaps-Base和大規模自動標註的子集ParaSpeechCaps-Scaled組成。我們結合現成文本和語音嵌入器、分類器和音頻語言模型的新型管道，首次實現了對如此廣泛的風格標籤進行自動大規模豐富標籤標註。

更多信息請查看我們的論文、代碼庫和演示網站。

📄 許可證

本項目採用CC BY-NC SA 4.0許可證。

📚 引用

如果您使用了此模型、數據集或倉庫，請按以下方式引用我們的工作：

@misc{diwan2025scalingrichstylepromptedtexttospeech,
      title={Scaling Rich Style-Prompted Text-to-Speech Datasets}, 
      author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi},
      year={2025},
      eprint={2503.04713},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2503.04713}, 
}