nepali_male_v1オープンソースネパール語音声合成モデル - 高品質なテキスト読み上げを無料で実現

ホーム

Nepali Male V1

tuskbyteによって開発

VITSアーキテクチャに基づくネパール語男性音声合成モデル、高品質なテキスト読み上げ機能をサポート

音声合成

Transformers

その他オープンソースライセンス:Apache-2.0 #ネパール語TTS #エンドツーエンド音声合成 #多方言対応

ダウンロード数 78

リリース時間 : 6/25/2024

モデル概要

これはエンドツーエンドのネパール語男性音声合成モデルで、VITSアーキテクチャを採用し、入力されたネパール語またはヒンディー語テキストを自然で流暢な音声波形に変換できます

モデル特徴

エンドツーエンド音声合成

中間特徴抽出ステップなしでテキストから直接音声波形を生成

変分推論アーキテクチャ

TTSタスクにおける一対多マッピング問題を処理するための条件付き変分オートエンコーダを採用

ランダム時間長予測

ランダム時間長予測器により、同じテキストで異なるリズムの音声合成を実現

高品質ボコーダ

HiFi-GANに似た転置畳み込み層スタックでスペクトログラムをデコードし、高品質音声を生成

モデル能力

ネパール語テキスト読み上げ

ヒンディー語テキスト読み上げ

自然な音声合成

可変リズム音声生成

使用事例

音声アシスタント

ネパール語音声アシスタント

ネパール語ユーザー向けにローカライズされた音声インタラクション体験を提供

自然で流暢なネパール語音声応答を生成

教育技術

言語学習ツール

学習者がネパール語の発音とリスニングを練習するのを支援

正確なネパール語発音デモを提供

アクセシビリティ技術

テキスト読み上げ機能

視覚障害ユーザー向けにネパール語コンテンツ読み上げサービスを提供

テキスト内容を理解可能な音声出力に変換

🚀 モデルIDのモデルカード

このモデルは、ネパール語とヒンディー語のテキストを自然な音声に変換するTTSモデルです。VITSアーキテクチャを用いており、高品質な音声合成が可能です。

🚀 クイックスタート

TTSは🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。

pip install --upgrade transformers accelerate

次に、以下のコードスニペットで推論を実行します。

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("procit001/nepali_male_v1")
tokenizer = AutoTokenizer.from_pretrained("procit001/nepali_male_v1")

text = "म पनि जान्छु है त अहिले लाई"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

得られた波形は.wavファイルとして保存できます。

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

または、Jupyter Notebook / Google Colabで表示することもできます。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主な機能

VITSアーキテクチャ：VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）は、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。
確率的持続時間予測器：同じテキスト入力から異なるリズムの音声を合成できます。
多言語対応：ネパール語とヒンディー語に対応しています。

📦 インストール

TTSを使用するには、🤗 Transformersライブラリのバージョン4.33以降をインストールする必要があります。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("procit001/nepali_male_v1")
tokenizer = AutoTokenizer.from_pretrained("procit001/nepali_male_v1")

text = "म पनि जान्छु है त अहिले लाई"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高度な使用法

import scipy
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

from IPython.display import Audio
Audio(output, rate=model.config.sampling_rate)

📚 ドキュメント

モデル詳細

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）は、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分自己符号化器（VAE）です。

フローベースのモジュールによって、一連のスペクトログラムベースの音響特徴が予測されます。このモジュールは、Transformerベースのテキストエンコーダと複数の結合層で構成されています。スペクトログラムは、HiFi - GANボコーダと同じように、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力を複数の方法で話すことができるTTS問題の1対多の性質に着想を得て、モデルには確率的持続時間予測器も含まれており、同じ入力テキストから異なるリズムの音声を合成できます。

モデルは、変分下限と敵対的トレーニングから導出される損失の組み合わせを用いてエンドツーエンドでトレーニングされます。モデルの表現力を向上させるために、正規化フローが条件付き事前分布に適用されます。推論時には、テキストエンコーディングは持続時間予測モジュールに基づいてアップサンプリングされ、その後、フローモジュールとHiFi - GANデコーダのカスケードを使用して波形にマッピングされます。持続時間予測器の確率的性質により、モデルは非決定的であり、同じ音声波形を生成するには固定シードが必要です。

モデル説明

これは🤗 Transformersモデルのモデルカードで、Hubに公開されています。このモデルカードは自動生成されています。

属性	详情
開発者	[atulpokharel]
資金提供元（オプション）	[atulpokharel]
共有者（オプション）	[atulpokharel]
モデルタイプ	[VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)]
言語 (NLP)	[ネパール語 (np) ヒンディー語 (hin)]
ライセンス	[TuskByte v1]