🚀 モデルIDのモデルカード
高度なアラビア語用のテキスト・トゥ・スピーチ(TTS)システムです。VITSアーキテクチャに基づき、Facebookのvits araモデルの事前学習済みの重みを利用して構築されています。自然でリアルな音声を生成し、様々なアラビア語の方言を理解することができます。
🚀 クイックスタート
モデルの詳細
モデルの説明
このモデルは、アラビア語専用に設計された高度なテキスト・トゥ・スピーチ(TTS)システムです。VITSアーキテクチャに基づき、Facebookのvits araモデルの事前学習済みの重みを利用して構築されています。このモデルは以下のことが可能です。
- 自然でリアルな音声の生成:人間の声に近い高品質のアラビア語音声を生成し、イントネーションや言語のニュアンスを保持します。
- 口語的なテキストの理解:様々なアラビア語の方言で書かれたテキストを処理し、慣用表現や地域の語彙を理解します。
VITS(Variational Inference with adversarial learning for end - to - end Text - to - Speech)は、入力テキストシーケンスに基づいて音声波形を予測するエンド・ツー・エンドの音声合成モデルです。事後エンコーダ、デコーダ、条件付き事前分布から構成される条件付き変分自己符号化器(VAE)です。
Transformerベースのテキストエンコーダと複数の結合層から構成されるフローベースのモジュールによって、一連のスペクトログラムベースの音響特徴が予測されます。スペクトログラムは、HiFi - GANボコーダと同じように、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力が複数の方法で話される可能性があるTTS問題の1対多の性質に着目し、モデルには確率的持続時間予測器も含まれており、同じ入力テキストから異なるリズムの音声を合成することができます。
モデル情報
プロパティ |
詳細 |
データセット |
mozilla - foundation/common_voice_17_0、wasmdashai/db - arabic - f1 - nn |
言語 |
ar |
ライセンス |
afl - 3.0 |
パイプラインタグ |
text - to - speech |
使用方法
MMS - TTSは🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。
pip install transformers[torch]
次に、以下のコードスニペットを使用して推論を実行します。
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
from IPython.display import Audio
Audio(full_generation_waveform, rate=model.config.sampling_rate)
連絡先
ご質問等は、メールで modelasg@gmail.com までお問い合わせください。
✨ アラビア語音声生成モデルセット
はじめに
当社では、高度な人工知能技術を用いて開発されたアラビア語の様々な方言に対応したテキスト・トゥ・スピーチ(TTS)モデルセットのリリースを間もなく発表することを嬉しく思います。
モデル一覧
方言 |
モデル名 |
説明 |
予定リリース日 |
音質レベル |
標準アラビア語 |
[vits - ar](https://huggingface.co/wasmdashai/vits - ar) |
高度な詳細でアラビア語を音声に変換するモデル。 |
利用可能 |
中 |
イエメン方言 |
[vits - ar - ye](https://huggingface.co/wasmdashai/vits - ar - ye) |
高度な詳細でイエメン方言を音声に変換するモデル。 |
近日 |
中 |
サウジアラビア方言 |
[vits - ar - sa](https://huggingface.co/wasmdashai/vits - ar - sa - huba) |
高音質で高度な詳細でサウジアラビア方言を音声に変換するモデル。 |
利用可能 |
中 |
エジプト方言 |
[vits - ar - eg](https://huggingface.co/wasmdashai/vits - ar - eg) |
自然でスムーズなスタイルでエジプト方言を音声に変換するモデル。 |
近日 |
中 |
レバノン方言 |
[vits - ar - lb](https://huggingface.co/wasmdashai/vits - ar - lb) |
高度な詳細とリアリズムでレバノン方言を音声に生成する専用モデル。 |
近日 |
中 |
モロッコ方言 |
[vits - ar - ma](https://huggingface.co/wasmdashai/vits - ar - ma) |
地域の用語を理解し、モロッコ方言を音声に変換するモデル。 |
近日 |
中 |
アラブ首長国連邦方言 |
[vits - ar - ae](https://huggingface.co/wasmdashai/vits - ar - ae) |
リアリズムと高度な詳細でアラブ首長国連邦方言を音声に変換するモデル。 |
近日 |
中 |
ヨルダン方言 |
[vits - ar - jo](https://huggingface.co/wasmdashai/vits - ar - jo) |
高度な音声詳細を持つヨルダン方言を音声に変換するモデル。 |
近日 |
中 |
イラク方言 |
[vits - ar - iq](https://huggingface.co/wasmdashai/vits - ar - iq) |
単語の発音と一般的な表現を正確に生成するイラク方言の音声生成モデル。 |
近日 |
中 |
シリア方言 |
[vits - ar - sy](https://huggingface.co/wasmdashai/vits - ar - sy) |
明瞭で自然な音声でシリア方言を音声に変換するモデル。 |
近日 |
中 |
パレスチナ方言 |
[vits - ar - ps](https://huggingface.co/wasmdashai/vits - ar - ps) |
高度な詳細でパレスチナ方言を音声に変換するモデル。 |
近日 |
中 |
スーダン方言 |
[vits - ar - sd](https://huggingface.co/wasmdashai/vits - ar - sd) |
地域の語彙を理解し、スーダン方言を音声に変換するモデル。 |
近日 |
中 |
アルジェリア方言 |
[vits - ar - dz](https://huggingface.co/wasmdashai/vits - ar - dz) |
高音質で正確にアルジェリア方言を音声に変換するモデル。 |
近日 |
中 |
チュニジア方言 |
[vits - ar - tn](https://huggingface.co/wasmdashai/vits - ar - tn) |
地域の詳細を正確に捉えたチュニジア方言を音声に変換するモデル。 |
近日 |
中 |
リビア方言 |
[vits - ar - ly](https://huggingface.co/wasmdashai/vits - ar - ly) |
正確でリアリスティックな発音でリビア方言を音声に変換するモデル。 |
近日 |
中 |
バーレーン方言 |
[vits - ar - bh](https://huggingface.co/wasmdashai/vits - ar - bh) |
高音質でバーレーン方言を音声に変換するモデル。 |
近日 |
中 |
オマーン方言 |
[vits - ar - om](https://huggingface.co/wasmdashai/vits - ar - om) |
正確で明瞭な発音でオマーン方言を音声に変換するモデル。 |
近日 |
中 |
カタール方言 |
[vits - ar - qa](https://huggingface.co/wasmdashai/vits - ar - qa) |
高度な詳細とリアリズムでカタール方言を音声に変換するモデル。 |
近日 |
中 |
クウェート方言 |
[vits - ar - kw](https://huggingface.co/wasmdashai/vits - ar - kw) |
高音質で明瞭なクウェート方言を音声に変換するモデル。 |
近日 |
中 |
モーリタニア方言 |
[vits - ar - mr](https://huggingface.co/wasmdashai/vits - ar - mr) |
高度な詳細とリアリズムでモーリタニア方言を音声に変換するモデル。 |
近日 |
中 |
技術的詳細
すべてのモデルはVITSアーキテクチャに基づいており、これは入力テキストに基づいて現実的な音声波形を生成できる包括的なテキスト・トゥ・スピーチモデルです。各方言の地域的な音声特性に基づいてテキストを分析し、音声を生成するための変換器を備えています。
将来のアップデート
定期的なアップデートを行い、音質の向上と様々な方言の理解能力の向上を図ります。各モデルの正確なリリース日については、引き続きご確認ください。
謝辞
この実装は [tts - arabic](https://github.com/nipponjo/tts - arabic - pytorch)、VITS、[Finetune VITS](https://github.com/ylacombe/finetune - hf - vits) および [Bert - VITS2](https://github.com/fishaudio/Bert - VITS2) に基づいています。彼らの素晴らしい仕事に感謝します。