tts_ru_free_hf_vits_low_multispeaker開源模型 - 多說話人俄語文本直接轉語音

首頁

Tts Ru Free Hf Vits Low Multispeaker

由utrobinmv開發

一個支持多說話人的俄語文本轉語音模型，可直接處理帶標點符號的普通文本，無需預先轉換為音素。

語音合成

Transformers

其他開源協議:Apache-2.0 #俄語TTS #多說話人支持 #小參數模型

下載量 1,021

發布時間 : 4/28/2024

模型概述

該模型提供兩種說話人聲音（女聲和男聲），支持直接處理普通俄語文本，推薦使用重音標註以獲得最佳效果。

模型特點

多說話人支持

提供兩種說話人聲音選擇：0號-女聲，1號-男聲

直接文本處理

可直接處理帶標點符號的普通文本，無需預先將文本轉換為音素

輕量級模型

模型參數規模僅為1510萬，資源佔用較低

重音標註支持

支持重音標註以提升生成質量，推薦使用ruaccent庫進行標註

模型能力

俄語文本轉語音

多說話人語音生成

直接處理普通文本

使用案例

語音合成應用

有聲讀物生成

將俄語文本轉換為自然語音，用於有聲讀物製作

可生成帶有不同說話人特色的語音

語音助手

為俄語語音助手提供語音合成能力

支持男女聲切換，提升用戶體驗

輔助技術

視障輔助

將俄語文本轉換為語音，幫助視障人士獲取信息

提供清晰自然的語音輸出

🚀 俄語免費多說話人文本轉語音模型

這是一個用於俄語的多說話人文本轉語音模型。它可以處理帶有標點分隔的純文本，無需事先將文本轉換為音素。該模型有兩個語音：0 - 女性，1 - 男性。模型大小僅為1510萬個參數，並且可以接受小寫文本。為了獲得更好的生成質量，建議在元音字母前添加重音符號，可使用 "ruaccent" 庫來添加重音。

🚀 快速開始

本模型可直接處理帶有標點分隔的純文本，無需將文本轉換為音素。若要獲得更好的生成質量，可使用 "ruaccent" 庫在元音字母前添加重音。

✨ 主要特性

多說話人支持：提供女性和男性兩種語音。
輕量級模型：僅包含1510萬個參數。
簡單易用：可直接處理純文本，無需額外轉換。

📦 安裝指南

若要使用 "ruaccent" 庫，可通過以下命令進行安裝：

pip install -y ruaccent

💻 使用示例

基礎用法

以下是使用 PyTorch 調用該模型的示例代碼：

from transformers import VitsModel, AutoTokenizer, set_seed
import torch
import scipy
from ruaccent import RUAccent

device = 'cuda' #  'cpu' or 'cuda'

speaker = 0 # 0-woman, 1-man  

set_seed(555)  # make deterministic

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_low_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# the placement of accents
text = accentizer.process_all(text)
print(text)
# н+очью дв+адцать тр+етьего и+юня н+ачал изверг+аться с+амый выс+окий 
# д+ействующий вулк+ан в евр+азии - ключевск+ой. об +этом сообщ+ила 
# руковод+итель камч+атской гр+уппы реаг+ирования на вулкан+ические
# изверж+ения, вед+ущий на+учный сотр+удник инстит+ута вулканол+огии
# и сейсмол+огии дво ран +ольга г+ирина. « зафикс+ированное н+очью не
# пр+осто свеч+ение, а верш+инное эксплоз+ивное изверж+ение 
# стромболи+анского т+ипа. пок+а так+ое изверж+ение ником+у не оп+асно:
# ни насел+ению, ни ави+ации » поясн+ила тасс госпож+а г+ирина.

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

若要在 Jupyter Notebook 或 Google Colab 中顯示音頻，可使用以下代碼：

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

高級用法

以下是使用 ONNX 調用該模型的示例代碼：首先，將 model.onnx 文件複製到 "tts_ru_free_hf_vits_low_multispeaker" 文件夾中。

import numpy as np
import scipy
import onnxruntime
from ruaccent import RUAccent
from transformers import AutoTokenizer

speaker = 0 # 0-woman, 1-man

# load model
model_path = "tts_ru_free_hf_vits_low_multispeaker/model.onnx"

sess_options = onnxruntime.SessionOptions()
model = onnxruntime.InferenceSession(model_path, sess_options=sess_options)
tokenizer = AutoTokenizer.from_pretrained("utrobinmv/tts_ru_free_hf_vits_low_multispeaker")

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True)

# the placement of accents
text = accentizer.process_all(text)

# inference
inputs = tokenizer(text, return_tensors="np")
sid = np.array([speaker])
sampling_rate = 16000

output = model.run(
            None,
            {
                "input_ids": inputs['input_ids'],
                "attention_mask": inputs['attention_mask'],
                "sid": sid,
            },
        )[0]
        
scipy.io.wavfile.write("tts_audio.wav", rate=sampling_rate,
                       data=output[0])

若要在 Jupyter Notebook 或 Google Colab 中顯示音頻，可使用以下代碼：

from IPython.display import Audio

Audio(output, rate=sampling_rate)

📚 詳細文檔

可通過以下鏈接進行測試推理： https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker

📄 許可證

本項目採用 Apache-2.0 許可證。

📋 信息表格

屬性	詳情
模型類型	俄語多說話人文本轉語音模型
訓練數據	未提及

常用提示信息

⚠️ 重要提示

為了獲得更好的生成質量，建議在元音字母前添加重音符號，可使用 "ruaccent" 庫來添加重音。

💡 使用建議

可通過鏈接 https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker 進行測試推理。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫