EGTTS-V0.1開源文本轉語音模型 - 實現埃及阿拉伯語自然語音轉換

首頁

EGTTS V0.1

由OmarSamir開發

專為埃及阿拉伯語設計的文本轉語音(TTS)模型，基於XTTS v2架構開發

語音合成阿拉伯語開源協議:其他 #埃及阿拉伯語TTS #多場景語音合成 #低資源優化

下載量 101

發布時間 : 12/24/2024

模型概述

將埃及阿拉伯語文本轉換為自然流暢的語音，適用於語音助手、教育工具和聊天機器人等應用

模型特點

埃及阿拉伯語優化

專門針對埃及阿拉伯語方言進行優化，提供更自然的語音輸出

基於XTTS v2架構

採用先進的XTTS v2架構，確保高質量的語音合成效果

多場景適用

可廣泛應用於語音助手、教育工具和聊天機器人等多種場景

模型能力

埃及阿拉伯語文本轉語音

語音合成

多說話人支持

使用案例

語音交互應用

語音助手

為埃及阿拉伯語用戶提供自然語音交互體驗

提升用戶體驗和交互自然度

教育工具

將教育內容轉換為埃及阿拉伯語語音輸出

幫助學習者更好地理解和記憶

客戶服務

聊天機器人

為埃及用戶提供本地化語音交互的客服機器人

提高客戶滿意度和服務效率

🚀 EGTTS V0.1

EGTTS V0.1是一款專門為埃及阿拉伯語設計的先進文本轉語音（TTS）模型。它基於XTTS v2架構，能夠將書面的埃及阿拉伯語文本轉換為自然流暢的語音，可廣泛應用於語音助手、教育工具和聊天機器人等各種場景，實現無縫交流。

🚀 快速開始

安裝依賴

pip install git+https://github.com/coqui-ai/TTS

pip install transformers

pip install deepspeed

推理

加載模型

import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

運行模型

from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

✨ 主要特性

專為埃及阿拉伯語設計，能將書面文本轉換為自然語音。
基於XTTS v2架構，可應用於語音助手、教育工具和聊天機器人等多種場景。

💻 使用示例

基礎用法

# 加載模型
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

# 運行模型
from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

📚 詳細文檔

試用模型

✨ 親身體驗EGTTS V0.1的魅力！ 可直接通過此HuggingFace Space試用該模型。

查看代碼

💻 深入瞭解實現細節！ 可在GitHub上查看完整代碼。

📄 許可證

許可證類型：other
許可證名稱：coqui-public-model-license

引用

@misc{OmarSamir,
      author = {Omar Samir, Youssef Waleed, Youssef Tamer ,and Amir Mohamed},
      title = {Fine-Tuning XTTS V2 for Egyptian Arabic},
      year = {2024},
      url = {https://github.com/joejoe03/Egyptian-Text-To-Speech},
}