tts_ru_free_hf_vits_high_multispeaker開源俄語文本轉語音模型 - 多說話人支持，免轉音素處理標點文本

首頁

Tts Ru Free Hf Vits High Multispeaker

由utrobinmv開發

這是一個支持多說話人的俄語文本轉語音模型，可直接處理帶標點符號的純文本，無需預先將文本轉換為音素。

語音合成

Transformers

其他開源協議:Apache-2.0 #俄語TTS #多說話人 #自動重音標註

下載量 182

發布時間 : 5/25/2024

模型概述

該模型是一個俄語文本轉語音(TTS)模型，支持多說話人功能，包含女聲和男聲兩種聲音。模型具備自動重音標註能力，建議在元音字母前手動添加重音符號以提高生成質量。

模型特點

多說話人支持

模型包含兩種聲音：0號-女聲，1號-男聲

自動重音標註

模型具備自動重音標註能力，但建議手動添加重音符號以提高質量

直接文本處理

可直接處理帶標點符號的純文本，無需預先轉換為音素

模型能力

俄語文本轉語音

多說話人語音合成

自動重音標註

使用案例

語音合成應用

有聲讀物生成

將俄語文本轉換為自然語音，用於製作有聲讀物

可生成帶有不同說話人特色的語音內容

語音助手開發

為俄語語音助手提供高質量的語音合成能力

支持不同性別的語音輸出選擇

🚀 俄語免費多音色文本轉語音模型

本項目是一個用於俄語的多音色文本轉語音模型。該模型可處理帶有標點分隔的純文本，無需事先將文本轉換為音素。多音色版本的模型有兩種音色可供選擇：0 - 女性，1 - 男性。

模型支持小寫文本輸入，並且能夠自動處理重音標註。不過，為了提升語音生成質量，建議在元音字母前手動添加重音符號。

🚀 快速開始

安裝依賴

本模型使用 transformers 庫，你可以使用以下命令安裝：

pip install transformers torch scipy

運行示例代碼

以下是使用 PyTorch 調用該模型的示例代碼：

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

device = 'cuda' #  'cpu' or 'cuda'

speaker = 1 # 0-woman, 1-man  

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_high_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# text with accents
text = """Ночью двадцать тр+етьего июня начал извергаться самый высокий 
действующий вулк+ан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН +Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# text lowercase
text = text.lower()

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

在 Jupyter Notebook / Google Colab 中展示音頻

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主要特性

多音色支持：提供女性和男性兩種音色選擇。
簡單易用：支持純文本輸入，無需將文本轉換為音素。
自動重音處理：模型能夠自動處理重音標註，但手動添加重音可提升生成質量。

💻 使用示例

基礎用法

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

device = 'cuda' #  'cpu' or 'cuda'

speaker = 1 # 0-woman, 1-man  

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_high_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# text with accents
text = """Ночью двадцать тр+етьего июня начал извергаться самый высокий 
действующий вулк+ан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН +Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# text lowercase
text = text.lower()

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

高級用法

在 Jupyter Notebook / Google Colab 中展示生成的音頻：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 詳細文檔

支持語言

該模型支持俄語（ru_RU）。

音色選擇

模型提供兩種音色：

0 - 女性
1 - 男性

文本輸入要求

支持小寫文本。
為提升生成質量，建議在元音字母前手動添加重音符號。

📄 許可證

本模型採用 Apache-2.0 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫