EGTTS-V0.1オープンソーステキスト読み上げモデル - エジプトアラビア語の自然な音声変換を実現

ホーム

EGTTS V0.1

OmarSamirによって開発

エジプトアラビア語専用に設計されたテキスト音声変換(TTS)モデル、XTTS v2アーキテクチャに基づいて開発

音声合成アラビア語オープンソースライセンス:その他 #エジプトアラビア語TTS #マルチシナリオ音声合成 #低リソース最適化

ダウンロード数 101

リリース時間 : 12/24/2024

モデル概要

エジプトアラビア語のテキストを自然で流暢な音声に変換、音声アシスタント、教育ツール、チャットボットなどのアプリケーションに適応

モデル特徴

エジプトアラビア語最適化

エジプトアラビア語方言に特化して最適化、より自然な音声出力を提供

XTTS v2アーキテクチャ採用

先進的なXTTS v2アーキテクチャを採用、高品質な音声合成効果を保証

マルチシナリオ対応

音声アシスタント、教育ツール、チャットボットなど様々なシナリオで広く利用可能

モデル能力

エジプトアラビア語テキスト音声変換

音声合成

マルチスピーカー対応

使用事例

音声インタラクションアプリケーション

音声アシスタント

エジプトアラビア語ユーザーに自然な音声インタラクション体験を提供

ユーザー体験とインタラクションの自然性を向上

教育ツール

教育コンテンツをエジプトアラビア語音声出力に変換

学習者の理解と記憶を支援

カスタマーサービス

チャットボット

エジプトユーザー向けにローカライズされた音声インタラクションのカスタマーサービスボットを提供

顧客満足度とサービス効率を向上

🚀 EGTTS V0.1

EGTTS V0.1は、エジプトアラビア語向けに特別に設計された最先端のテキスト読み上げ（TTS）モデルです。XTTS v2アーキテクチャをベースに構築され、書かれたエジプトアラビア語のテキストを自然な音声に変換します。これにより、ボイスアシスタント、教育ツール、チャットボットなどの様々なアプリケーションで円滑なコミュニケーションが可能になります。

🚀 クイックスタート

インストールする依存関係

pip install git+https://github.com/coqui-ai/TTS

pip install transformers

pip install deepspeed

推論

モデルの読み込み

import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

モデルの実行

from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

✨ 主な機能

EGTTS V0.1は、エジプトアラビア語に特化した高度なテキスト読み上げ機能を提供します。このモデルは、XTTS v2アーキテクチャを活用して、自然な音声でエジプトアラビア語のテキストを読み上げることができます。これにより、ボイスアシスタントや教育ツールなどの様々なアプリケーションでの利用が可能です。

💻 使用例

基本的な使用法

# モデルの読み込み
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

# モデルの実行
from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

📚 ドキュメント

モデルの試用

✨ EGTTS V0.1の魅力を体験してみましょう！ このHuggingFace Spaceを通じて直接モデルを試すことができます。

コードの探索

💻 実装の詳細を調べてみましょう！ GitHubで完全なコードを確認できます。

📄 ライセンス

ライセンス: other
ライセンス名: coqui-public-model-license

🔧 技術詳細

モデルタイプ: エジプトアラビア語用のテキスト読み上げモデル
ベースモデル: coqui/XTTS-v2
パイプラインタグ: text-to-speech
言語: ar

引用

@misc{OmarSamir,
      author = {Omar Samir, Youssef Waleed, Youssef Tamer ,and Amir Mohamed},
      title = {Fine-Tuning XTTS V2 for Egyptian Arabic},
      year = {2024},
      url = {https://github.com/joejoe03/Egyptian-Text-To-Speech},
}