Parler-TTS Mini v1 開源日語文本轉語音模型 - 免費實現高質量語音合成

首頁

Japanese Parler Tts Mini Bate

由2121-8開發

Parler-TTS Mini v1 是一個基於日語的小型文本轉語音模型，支持高質量的語音合成。

語音合成

Transformers

日語開源協議:其他 #日語TTS #小參數量 #語音合成

下載量 184

發布時間 : 11/19/2024

模型概述

該模型主要用於將日語文本轉換為自然語音，適用於語音助手、有聲讀物等應用場景。

模型特點

日語支持

專門針對日語優化的文本轉語音模型，提供高質量的語音合成效果。

小型化設計

模型體積較小，適合資源有限的環境部署。

高質量語音

基於LibriTTS數據集訓練，生成語音自然流暢。

模型能力

日語文本轉語音

高質量語音合成

使用案例

語音助手

日語語音助手

為日語用戶提供語音交互功能

生成自然流暢的日語語音響應

有聲內容

日語有聲讀物

將日語文本轉換為語音

提供高質量的朗讀體驗

🚀 日語Parler-TTS Mini (β版)

本倉庫基於parler-tts/parler-tts-mini-v1，發佈了一個經過重新訓練的模型，該模型能夠實現日語的文本朗讀。此模型雖輕量，但能提供高質量的語音生成。

模型信息

屬性	詳情
基礎模型	parler-tts/parler-tts-mini-v1、retrieva-jp/t5-base-long
訓練數據集	ylacombe/libritts_r_filtered、ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents
任務類型	文本轉音頻
庫名稱	transformers
標籤	文本轉語音、標註、日語
許可證	其他

⚠️ 重要提示

該模型與原版Parler-TTS使用的tokenizer不兼容，採用了專為該模型設計的tokenizer。

目前此倉庫處於β版，功能和模型的優化正在朝著正式發佈的方向推進。

正式發佈版鏈接

日語Parler-TTS Mini (878M)
日語Parler-TTS Large (878M) 正在準備中

日語Parler-TTS索引

日語Parler-TTS Mini
日語Parler-TTS Large（若有足夠計算資源將進行訓練）
日語Parler-TTS Mini Bata
日語Parler-TTS Large Bata

🚀 快速開始

注意點

由於該模型的訓練數據中男性聲音相關數據較少，可能無法如預期般生成男性聲音，尤其是在自然語調及音質調整方面可能存在困難，請知悉。

📦 安裝指南

可以使用以下命令進行安裝：

pip install git+https://github.com/huggingface/parler-tts.git
pip install git+https://github.com/getuka/RubyInserter.git

💻 使用示例

基礎用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
from rubyinserter import add_ruby

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini-bate").to(device)
tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini-bate")

prompt = "こんにちは、今日はどのようにお過ごしですか？"
description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."

prompt = add_ruby(prompt)
input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)