tts_ru_free_hf_vits_high_multispeaker开源俄语文本转语音模型 - 多说话人支持，免转音素处理标点文本

首页

Tts Ru Free Hf Vits High Multispeaker

由 utrobinmv 开发

这是一个支持多说话人的俄语文本转语音模型，可直接处理带标点符号的纯文本，无需预先将文本转换为音素。

语音合成

Transformers

其他开源协议:Apache-2.0 #俄语TTS #多说话人 #自动重音标注

下载量 182

发布时间 : 5/25/2024

模型简介

该模型是一个俄语文本转语音(TTS)模型，支持多说话人功能，包含女声和男声两种声音。模型具备自动重音标注能力，建议在元音字母前手动添加重音符号以提高生成质量。

模型特点

多说话人支持

模型包含两种声音：0号-女声，1号-男声

自动重音标注

模型具备自动重音标注能力，但建议手动添加重音符号以提高质量

直接文本处理

可直接处理带标点符号的纯文本，无需预先转换为音素

模型能力

俄语文本转语音

多说话人语音合成

自动重音标注

使用案例

语音合成应用

有声读物生成

将俄语文本转换为自然语音，用于制作有声读物

可生成带有不同说话人特色的语音内容

语音助手开发

为俄语语音助手提供高质量的语音合成能力

支持不同性别的语音输出选择

🚀 俄语免费多音色文本转语音模型

本项目是一个用于俄语的多音色文本转语音模型。该模型可处理带有标点分隔的纯文本，无需事先将文本转换为音素。多音色版本的模型有两种音色可供选择：0 - 女性，1 - 男性。

模型支持小写文本输入，并且能够自动处理重音标注。不过，为了提升语音生成质量，建议在元音字母前手动添加重音符号。

🚀 快速开始

安装依赖

本模型使用 transformers 库，你可以使用以下命令安装：

pip install transformers torch scipy

运行示例代码

以下是使用 PyTorch 调用该模型的示例代码：

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

device = 'cuda' #  'cpu' or 'cuda'

speaker = 1 # 0-woman, 1-man  

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_high_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# text with accents
text = """Ночью двадцать тр+етьего июня начал извергаться самый высокий 
действующий вулк+ан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН +Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# text lowercase
text = text.lower()

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

在 Jupyter Notebook / Google Colab 中展示音频

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主要特性

多音色支持：提供女性和男性两种音色选择。
简单易用：支持纯文本输入，无需将文本转换为音素。
自动重音处理：模型能够自动处理重音标注，但手动添加重音可提升生成质量。

💻 使用示例

基础用法

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

device = 'cuda' #  'cpu' or 'cuda'

speaker = 1 # 0-woman, 1-man  

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_high_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# text with accents
text = """Ночью двадцать тр+етьего июня начал извергаться самый высокий 
действующий вулк+ан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН +Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# text lowercase
text = text.lower()

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

高级用法

在 Jupyter Notebook / Google Colab 中展示生成的音频：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 详细文档

支持语言

该模型支持俄语（ru_RU）。

音色选择

模型提供两种音色：

0 - 女性
1 - 男性

文本输入要求

支持小写文本。
为提升生成质量，建议在元音字母前手动添加重音符号。

📄 许可证

本模型采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库