🚀 モデルIDのモデルカード
このモデルは、ネパール語とヒンディー語のテキストを自然な音声に変換するTTSモデルです。VITSアーキテクチャを用いており、高品質な音声合成が可能です。
🚀 クイックスタート
TTSは🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。
pip install --upgrade transformers accelerate
次に、以下のコードスニペットで推論を実行します。
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("procit001/nepali_male_v1")
tokenizer = AutoTokenizer.from_pretrained("procit001/nepali_male_v1")
text = "म पनि जान्छु है त अहिले लाई"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
得られた波形は.wav
ファイルとして保存できます。
import scipy
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)
または、Jupyter Notebook / Google Colabで表示することもできます。
from IPython.display import Audio
Audio(output, rate=model.config.sampling_rate)
✨ 主な機能
- VITSアーキテクチャ:VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。
- 確率的持続時間予測器:同じテキスト入力から異なるリズムの音声を合成できます。
- 多言語対応:ネパール語とヒンディー語に対応しています。
📦 インストール
TTSを使用するには、🤗 Transformersライブラリのバージョン4.33以降をインストールする必要があります。
pip install --upgrade transformers accelerate
💻 使用例
基本的な使用法
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("procit001/nepali_male_v1")
tokenizer = AutoTokenizer.from_pretrained("procit001/nepali_male_v1")
text = "म पनि जान्छु है त अहिले लाई"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
高度な使用法
import scipy
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)
from IPython.display import Audio
Audio(output, rate=model.config.sampling_rate)
📚 ドキュメント
モデル詳細
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分自己符号化器(VAE)です。
フローベースのモジュールによって、一連のスペクトログラムベースの音響特徴が予測されます。このモジュールは、Transformerベースのテキストエンコーダと複数の結合層で構成されています。スペクトログラムは、HiFi - GANボコーダと同じように、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力を複数の方法で話すことができるTTS問題の1対多の性質に着想を得て、モデルには確率的持続時間予測器も含まれており、同じ入力テキストから異なるリズムの音声を合成できます。
モデルは、変分下限と敵対的トレーニングから導出される損失の組み合わせを用いてエンドツーエンドでトレーニングされます。モデルの表現力を向上させるために、正規化フローが条件付き事前分布に適用されます。推論時には、テキストエンコーディングは持続時間予測モジュールに基づいてアップサンプリングされ、その後、フローモジュールとHiFi - GANデコーダのカスケードを使用して波形にマッピングされます。持続時間予測器の確率的性質により、モデルは非決定的であり、同じ音声波形を生成するには固定シードが必要です。
モデル説明
これは🤗 Transformersモデルのモデルカードで、Hubに公開されています。このモデルカードは自動生成されています。
属性 |
详情 |
開発者 |
[atulpokharel] |
資金提供元(オプション) |
[atulpokharel] |
共有者(オプション) |
[atulpokharel] |
モデルタイプ |
[VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)] |
言語 (NLP) |
[ネパール語 (np) ヒンディー語 (hin)] |
ライセンス |
[TuskByte v1] |
📄 ライセンス
このモデルはatulpokharelのライセンスの下で提供されています。