🚀 EGTTS V0.1
EGTTS V0.1は、エジプトアラビア語向けに特別に設計された最先端のテキスト読み上げ(TTS)モデルです。XTTS v2アーキテクチャをベースに構築され、書かれたエジプトアラビア語のテキストを自然な音声に変換します。これにより、ボイスアシスタント、教育ツール、チャットボットなどの様々なアプリケーションで円滑なコミュニケーションが可能になります。
🚀 クイックスタート
インストールする依存関係
pip install git+https://github.com/coqui-ai/TTS
pip install transformers
pip install deepspeed
推論
モデルの読み込み
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'
print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()
print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])
モデルの実行
from IPython.display import Audio, display
text = "صباح الخير"
print("Inference...")
out = model.inference(
text,
"ar",
gpt_cond_latent,
speaker_embedding,
temperature=0.75,
)
AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))
✨ 主な機能
EGTTS V0.1は、エジプトアラビア語に特化した高度なテキスト読み上げ機能を提供します。このモデルは、XTTS v2アーキテクチャを活用して、自然な音声でエジプトアラビア語のテキストを読み上げることができます。これにより、ボイスアシスタントや教育ツールなどの様々なアプリケーションでの利用が可能です。
💻 使用例
基本的な使用法
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'
print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()
print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])
from IPython.display import Audio, display
text = "صباح الخير"
print("Inference...")
out = model.inference(
text,
"ar",
gpt_cond_latent,
speaker_embedding,
temperature=0.75,
)
AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))
📚 ドキュメント
モデルの試用
✨ EGTTS V0.1の魅力を体験してみましょう! このHuggingFace Spaceを通じて直接モデルを試すことができます。
コードの探索
💻 実装の詳細を調べてみましょう! GitHubで完全なコードを確認できます。
📄 ライセンス
- ライセンス: other
- ライセンス名: coqui-public-model-license
🔧 技術詳細
- モデルタイプ: エジプトアラビア語用のテキスト読み上げモデル
- ベースモデル: coqui/XTTS-v2
- パイプラインタグ: text-to-speech
- 言語: ar
引用
@misc{OmarSamir,
author = {Omar Samir, Youssef Waleed, Youssef Tamer ,and Amir Mohamed},
title = {Fine-Tuning XTTS V2 for Egyptian Arabic},
year = {2024},
url = {https://github.com/joejoe03/Egyptian-Text-To-Speech},
}