tts_ru_free_hf_vits_low_multispeakerオープンソースモデル - 多说话者のロシア語のテキストを直接音声に変換

ホーム

Tts Ru Free Hf Vits Low Multispeaker

utrobinmvによって開発

マルチスピーカー対応のロシア語テキスト音声変換モデルで、句読点付きの通常テキストを直接処理可能、音素への事前変換が不要です。

音声合成

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語TTS #マルチスピーカー対応 #小規模パラメータモデル

ダウンロード数 1,021

リリース時間 : 4/28/2024

モデル概要

このモデルは2種類のスピーカーボイス（女性ボイスと男性ボイス）を提供し、通常のロシア語テキストを直接処理可能、最適な結果を得るためアクセント注記の使用を推奨します。

モデル特徴

マルチスピーカー対応

2種類のスピーカーボイス選択可能：0番-女性ボイス、1番-男性ボイス

直接テキスト処理

句読点付きの通常テキストを直接処理可能、テキストを音素に事前変換する必要がありません

軽量モデル

モデルパラメータ規模はわずか1510万で、リソース消費が低い

アクセント注記対応

生成品質向上のためアクセント注記をサポート、ruaccentライブラリを使用した注記を推奨

モデル能力

ロシア語テキスト音声変換

マルチスピーカー音声生成

通常テキスト直接処理

使用事例

音声合成アプリケーション

オーディオブック生成

ロシア語テキストを自然音声に変換し、オーディオブック制作に利用

異なるスピーカー特性を持つ音声を生成可能

音声アシスタント

ロシア語音声アシスタントに音声合成機能を提供

男女ボイス切り替えをサポート、ユーザー体験を向上

支援技術

視覚障害者支援

ロシア語テキストを音声に変換し、視覚障害者の情報取得を支援

クリアで自然な音声出力を提供

🚀 ロシア語用の無料多話者テキスト読み上げモデル

このモデルは、ロシア語用の多話者テキスト読み上げモデルです。句読点で区切られた平文で動作し、テキストを音素に事前変換する必要はありません。多話者モデルには2つの声があります：0 - 女性、1 - 男性。

モデルのサイズはわずか1510万パラメータです。

テキストは小文字を受け付けます。

より良い生成品質を得るために、母音の前にアクセントを付けることをおすすめします。

アクセント付けには、「ruaccent」ライブラリの使用をおすすめします。

🚀 クイックスタート

「ruaccent」のインストール

「ruaccent」をインストールするには、以下のコマンドを使用します。

pip install -y ruaccent

テスト推論の実行

テスト推論には、以下のSpacesを使用できます。 https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker

✨ 主な機能

多話者対応（女性と男性の声）
句読点付きの平文で動作
テキストを音素に事前変換する必要なし
モデルサイズが小さい（1510万パラメータ）

📦 インストール

「ruaccent」ライブラリをインストールするには、以下のコマンドを実行します。

pip install -y ruaccent

💻 使用例

基本的な使用法（PyTorchを使用）

from transformers import VitsModel, AutoTokenizer, set_seed
import torch
import scipy
from ruaccent import RUAccent

device = 'cuda' #  'cpu' or 'cuda'

speaker = 0 # 0-woman, 1-man  

set_seed(555)  # make deterministic

# load model
model_name = "utrobinmv/tts_ru_free_hf_vits_low_multispeaker"

model = VitsModel.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model.eval()

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# the placement of accents
text = accentizer.process_all(text)
print(text)
# н+очью дв+адцать тр+етьего и+юня н+ачал изверг+аться с+амый выс+окий 
# д+ействующий вулк+ан в евр+азии - ключевск+ой. об +этом сообщ+ила 
# руковод+итель камч+атской гр+уппы реаг+ирования на вулкан+ические
# изверж+ения, вед+ущий на+учный сотр+удник инстит+ута вулканол+огии
# и сейсмол+огии дво ран +ольга г+ирина. « зафикс+ированное н+очью не
# пр+осто свеч+ение, а верш+инное эксплоз+ивное изверж+ение 
# стромболи+анского т+ипа. пок+а так+ое изверж+ение ником+у не оп+асно:
# ни насел+ению, ни ави+ации » поясн+ила тасс госпож+а г+ирина.

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs.to(device), speaker_id=speaker).waveform
    output = output.detach().cpu().numpy()
    
scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
                       data=output[0])

Jupyter Notebook / Google Colabで表示するには、以下のコードを使用します。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

高度な使用法（ONNXを使用）

まず、model.onnxファイルを「tts_ru_free_hf_vits_low_multispeaker」フォルダにコピーしてください。

import numpy as np
import scipy
import onnxruntime
from ruaccent import RUAccent
from transformers import AutoTokenizer

speaker = 0 # 0-woman, 1-man

# load model
model_path = "tts_ru_free_hf_vits_low_multispeaker/model.onnx"

sess_options = onnxruntime.SessionOptions()
model = onnxruntime.InferenceSession(model_path, sess_options=sess_options)
tokenizer = AutoTokenizer.from_pretrained("utrobinmv/tts_ru_free_hf_vits_low_multispeaker")

# text
text = """Ночью двадцать третьего июня начал извергаться самый высокий 
действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель 
Камчатской группы реагирования на вулканические извержения, ведущий 
научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
«Зафиксированное ночью не просто свечение, а вершинное эксплозивное 
извержение стромболианского типа. Пока такое извержение никому не опасно: 
ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""

# load accentizer
accentizer = RUAccent()
accentizer.load(omograph_model_size='turbo', use_dictionary=True)

# the placement of accents
text = accentizer.process_all(text)

# inference
inputs = tokenizer(text, return_tensors="np")
sid = np.array([speaker])
sampling_rate = 16000

output = model.run(
            None,
            {
                "input_ids": inputs['input_ids'],
                "attention_mask": inputs['attention_mask'],
                "sid": sid,
            },
        )[0]
        
scipy.io.wavfile.write("tts_audio.wav", rate=sampling_rate,
                       data=output[0])

Jupyter Notebook / Google Colabで表示するには、以下のコードを使用します。

from IPython.display import Audio

Audio(output, rate=sampling_rate)

📚 ドキュメント

対応言語

ロシア語 (ru_RU)

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご