torchaudio_tacotron2_kss开源韩语文本转语音模型

首页

Torchaudio Tacotron2 Kss

由 Bingsu 开发

基于kss数据集训练的Tacotron2韩语文本转语音模型

语音合成

Transformers

韩语开源协议:其他 #韩语语音合成 #Tacotron2架构 #高保真音质

下载量 28

发布时间 : 12/9/2022

模型简介

这是一个基于PyTorch的Tacotron2架构的文本转语音模型，专门针对韩语进行训练，使用kss数据集。

模型特点

韩语优化

专门针对韩语语音特性进行训练，使用kss数据集

Tacotron2架构

采用成熟的Tacotron2架构，提供高质量的语音合成

轻量级部署

模型相对轻量，适合多种部署场景

模型能力

韩语文本转语音

高质量语音合成

使用案例

语音合成应用

韩语语音助手

为韩语语音助手提供自然语音输出

示例音频显示流畅自然的韩语发音

有声读物生成

将韩语文本转换为有声读物

🚀 Torchaudio_Tacotron2_kss

Torchaudio_Tacotron2_kss是基于torchaudio Tacotron2模型，在kss数据集上训练得到的文本转语音模型。

🚀 快速开始

本项目是一个文本转语音模型，使用Torchaudio的Tacotron2架构，在kss数据集上训练。下面将为你介绍使用该模型的具体步骤。

📦 安装指南

在使用该模型前，你需要安装必要的依赖库，具体安装命令如下：

pip install torch torchaudio transformers phonemizer

同时，你还需要安装 espeak-ng。

⚠️ 重要提示

如果你使用的是Windows系统，需要设置额外的环境变量，详情请见：https://github.com/bootphon/phonemizer/issues/44

💻 使用示例

基础用法

以下代码展示了如何加载模型和分词器：

import torch
from transformers import AutoModel, AutoTokenizer

repo = "Bingsu/torchaudio_tacotron2_kss"
model = AutoModel.from_pretrained(
    repo,
    trust_remote_code=True,
    revision="589d6557e8b4bb347f49de74270541063ba9c2bc"
    )
tokenizer = AutoTokenizer.from_pretrained(repo)
model.eval()

以下代码展示了如何加载声码器：

vocoder = torch.hub.load("seungwonpark/melgan:aca59909f6dd028ec808f987b154535a7ca3400c", "melgan", trust_repo=True, pretrained=False)
url = "https://huggingface.co/Bingsu/torchaudio_tacotron2_kss/resolve/main/melgan.pt"
state_dict = torch.hub.load_state_dict_from_url(url)
vocoder.load_state_dict(state_dict)

⚠️ 重要提示

这里使用的声码器与原始的 seungwonpark/melgan 相同，但权重位于cuda上，因此需要单独加载。

以下代码展示了如何输入文本并进行推理：

text = "반갑습니다 타코트론2입니다."
inp = tokenizer(text, return_tensors="pt", return_length=True, return_attention_mask=False)

以下代码展示了如何进行推理并生成音频：

with torch.inference_mode():
    out = model(**inp)
    audio = vocoder(out[0])

以下代码展示了如何播放生成的音频：

import IPython.display as ipd

ipd.Audio(audio[0].numpy(), rate=22050)

你也可以点击下面的链接试听示例音频：

📄 许可证

代码：遵循MIT许可证。
pytorch_model.bin 权重：遵循CC BY - NC - SA 4.0（kss数据集的许可证）。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库