tts_ru_free_hf_vits_low_multispeaker开源模型 - 多说话人俄语文本直接转语音

首页

Tts Ru Free Hf Vits Low Multispeaker

由 utrobinmv 开发

一个支持多说话人的俄语文本转语音模型，可直接处理带标点符号的普通文本，无需预先转换为音素。

语音合成

Transformers

其他开源协议:Apache-2.0 #俄语TTS #多说话人支持 #小参数模型

下载量 1,021

发布时间 : 4/28/2024

模型简介

该模型提供两种说话人声音（女声和男声），支持直接处理普通俄语文本，推荐使用重音标注以获得最佳效果。

模型特点

多说话人支持

提供两种说话人声音选择：0号-女声，1号-男声

直接文本处理

可直接处理带标点符号的普通文本，无需预先将文本转换为音素

轻量级模型

模型参数规模仅为1510万，资源占用较低

重音标注支持

支持重音标注以提升生成质量，推荐使用ruaccent库进行标注

模型能力

俄语文本转语音

多说话人语音生成

直接处理普通文本

使用案例

语音合成应用

有声读物生成

将俄语文本转换为自然语音，用于有声读物制作

可生成带有不同说话人特色的语音

语音助手

为俄语语音助手提供语音合成能力

支持男女声切换，提升用户体验

辅助技术

视障辅助

将俄语文本转换为语音，帮助视障人士获取信息

提供清晰自然的语音输出

🚀 俄语免费多说话人文本转语音模型

这是一个用于俄语的多说话人文本转语音模型。它可以处理带有标点分隔的纯文本，无需事先将文本转换为音素。该模型有两个语音：0 - 女性，1 - 男性。模型大小仅为1510万个参数，并且可以接受小写文本。为了获得更好的生成质量，建议在元音字母前添加重音符号，可使用 "ruaccent" 库来添加重音。

🚀 快速开始

本模型可直接处理带有标点分隔的纯文本，无需将文本转换为音素。若要获得更好的生成质量，可使用 "ruaccent" 库在元音字母前添加重音。

✨ 主要特性

多说话人支持：提供女性和男性两种语音。
轻量级模型：仅包含1510万个参数。
简单易用：可直接处理纯文本，无需额外转换。

📦 安装指南

若要使用 "ruaccent" 库，可通过以下命令进行安装：

pip install -y ruaccent

💻 使用示例

基础用法

以下是使用 PyTorch 调用该模型的示例代码：

from transformers import VitsModel, AutoTokenizer, set_seed
import torch
import scipy
from ruaccent import RUAccent

device = 'cuda' #  'cpu' or 'cuda'

speaker = 0 # 0-woman, 1-man  

set_seed(555)  # make deterministic

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_low_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# the placement of accents
text = accentizer.process_all(text)
print(text)
# н+очью дв+адцать тр+етьего и+юня н+ачал изверг+аться с+амый выс+окий 
# д+ействующий вулк+ан в евр+азии - ключевск+ой. об +этом сообщ+ила 
# руковод+итель камч+атской гр+уппы реаг+ирования на вулкан+ические
# изверж+ения, вед+ущий на+учный сотр+удник инстит+ута вулканол+огии
# и сейсмол+огии дво ран +ольга г+ирина. « зафикс+ированное н+очью не
# пр+осто свеч+ение, а верш+инное эксплоз+ивное изверж+ение 
# стромболи+анского т+ипа. пок+а так+ое изверж+ение ником+у не оп+асно:
# ни насел+ению, ни ави+ации » поясн+ила тасс госпож+а г+ирина.

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

若要在 Jupyter Notebook 或 Google Colab 中显示音频，可使用以下代码：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

高级用法

以下是使用 ONNX 调用该模型的示例代码：首先，将 model.onnx 文件复制到 "tts_ru_free_hf_vits_low_multispeaker" 文件夹中。

import numpy as np
import scipy
import onnxruntime
from ruaccent import RUAccent
from transformers import AutoTokenizer

speaker = 0 # 0-woman, 1-man

# load model
model_path = "tts_ru_free_hf_vits_low_multispeaker/model.onnx"

sess_options = onnxruntime.SessionOptions()
model = onnxruntime.InferenceSession(model_path, sess_options=sess_options)
tokenizer = AutoTokenizer.from_pretrained("utrobinmv/tts_ru_free_hf_vits_low_multispeaker")

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True)

# the placement of accents
text = accentizer.process_all(text)

# inference
inputs = tokenizer(text, return_tensors="np")
sid = np.array([speaker])
sampling_rate = 16000

output = model.run(
            None,
            {
                "input_ids": inputs['input_ids'],
                "attention_mask": inputs['attention_mask'],
                "sid": sid,
            },
        )[0]
        
scipy.io.wavfile.write("tts_audio.wav", rate=sampling_rate,
                       data=output[0])

若要在 Jupyter Notebook 或 Google Colab 中显示音频，可使用以下代码：

from IPython.display import Audio

Audio(output, rate=sampling_rate)

📚 详细文档

可通过以下链接进行测试推理： https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker

📄 许可证

本项目采用 Apache-2.0 许可证。

📋 信息表格

属性	详情
模型类型	俄语多说话人文本转语音模型
训练数据	未提及

常用提示信息

⚠️ 重要提示

为了获得更好的生成质量，建议在元音字母前添加重音符号，可使用 "ruaccent" 库来添加重音。

💡 使用建议

可通过链接 https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker 进行测试推理。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库