japanese - parler - tts - mini开源组合模型 - 免费实现日语文本高效转语音

首页

Japanese Parler Tts Mini

由 2121-8 开发

Parler-TTS Mini v1 是一个轻量级的文本转语音模型，Retrieva-JP T5 Base Long 是一个日语文本处理模型，两者结合用于日语文本转语音任务。

语音合成

Transformers

日语开源协议:其他 #日语TTS #轻量级语音合成 #长文本优化

下载量 1,250

发布时间 : 12/2/2024

模型简介

该模型组合专注于日语文本转语音任务，Parler-TTS Mini v1 负责语音合成，Retrieva-JP T5 Base Long 负责文本处理。

模型特点

轻量级语音合成

Parler-TTS Mini v1 是一个轻量级的语音合成模型，适合资源有限的环境。

日语文本处理

Retrieva-JP T5 Base Long 专门针对日语文本进行优化，提供高质量的文本处理能力。

高效组合

两个模型的组合提供了高效的日语文本转语音解决方案。

模型能力

日语文本转语音

语音合成

日语文本处理

使用案例

语音助手

日语语音助手

用于构建日语语音助手，将文本转换为自然语音。

生成流畅的日语语音输出

教育

日语学习工具

用于日语学习应用，帮助学习者听到正确的发音。

提供准确的日语发音

🚀 日语Parler-TTS Mini

本仓库基于 parler-tts/parler-tts-mini-v1 重新训练了一个模型，使其能够实现日语的文本朗读功能。该模型在保持轻量级的同时，还能提供高质量的语音生成效果。

⚠️ 重要提示

本模型与原版 Parler-TTS 所使用的分词器不兼容，采用了专为该模型设计的分词器。

属性	详情
模型类型	文本转语音
基础模型	parler-tts/parler-tts-mini-v1、retrieva-jp/t5-base-long
库名称	transformers
标签	文本转语音、标注、日语
许可证	其他

🚀 快速开始

日语Parler-TTS索引

日语Parler-TTS Mini
日语Parler-TTS Large（若计算资源充足将进行训练）

📦 安装指南

以下命令可用于安装所需依赖：

pip install git+https://github.com/huggingface/parler-tts.git
pip install git+https://github.com/getuka/RubyInserter.git

💻 使用示例

基础用法

🎲 随机语音使用方法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
from rubyinserter import add_ruby

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini").to(device)
prompt_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="prompt_tokenizer")
description_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="description_tokenizer")

prompt = "こんにちは、今日はどのようにお過ごしですか？"
description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."

prompt = add_ruby(prompt)
input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = prompt_tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)

示例语音

高级用法

🎯 指定特定说话人方法

使用的训练数据：JSUT

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
from rubyinserter import add_ruby

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini").to(device)
prompt_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="prompt_tokenizer")
description_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="description_tokenizer")

prompt = "こんにちは、今日はどのようにお過ごしですか？"
description = "JSUT speaks with an expressive and animated tone in an excellent recording, with a very close-sounding proximity that suggests a private and intimate setting, and delivers her words at a rapid pace."

prompt = add_ruby(prompt)
input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = prompt_tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)