🚀 EGTTS V0.1
EGTTS V0.1是一款專門為埃及阿拉伯語設計的先進文本轉語音(TTS)模型。它基於XTTS v2架構,能夠將書面的埃及阿拉伯語文本轉換為自然流暢的語音,可廣泛應用於語音助手、教育工具和聊天機器人等各種場景,實現無縫交流。
🚀 快速開始
安裝依賴
pip install git+https://github.com/coqui-ai/TTS
pip install transformers
pip install deepspeed
推理
加載模型
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'
print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()
print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])
運行模型
from IPython.display import Audio, display
text = "صباح الخير"
print("Inference...")
out = model.inference(
text,
"ar",
gpt_cond_latent,
speaker_embedding,
temperature=0.75,
)
AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))
✨ 主要特性
- 專為埃及阿拉伯語設計,能將書面文本轉換為自然語音。
- 基於XTTS v2架構,可應用於語音助手、教育工具和聊天機器人等多種場景。
💻 使用示例
基礎用法
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'
print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()
print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])
from IPython.display import Audio, display
text = "صباح الخير"
print("Inference...")
out = model.inference(
text,
"ar",
gpt_cond_latent,
speaker_embedding,
temperature=0.75,
)
AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))
📚 詳細文檔
試用模型
✨ 親身體驗EGTTS V0.1的魅力! 可直接通過此HuggingFace Space試用該模型。
查看代碼
💻 深入瞭解實現細節! 可在GitHub上查看完整代碼。
📄 許可證
- 許可證類型:other
- 許可證名稱:coqui-public-model-license
引用
@misc{OmarSamir,
author = {Omar Samir, Youssef Waleed, Youssef Tamer ,and Amir Mohamed},
title = {Fine-Tuning XTTS V2 for Egyptian Arabic},
year = {2024},
url = {https://github.com/joejoe03/Egyptian-Text-To-Speech},
}
屬性 |
詳情 |
模型類型 |
文本轉語音(TTS)模型 |
基礎模型 |
coqui/XTTS - v2 |
語言 |
阿拉伯語(埃及阿拉伯語) |
任務類型 |
文本轉語音 |