EGTTS-V0.1开源文本转语音模型 - 实现埃及阿拉伯语自然语音转换

首页

EGTTS V0.1

由 OmarSamir 开发

专为埃及阿拉伯语设计的文本转语音(TTS)模型，基于XTTS v2架构开发

语音合成阿拉伯语开源协议:其他 #埃及阿拉伯语TTS #多场景语音合成 #低资源优化

下载量 101

发布时间 : 12/24/2024

模型简介

将埃及阿拉伯语文本转换为自然流畅的语音，适用于语音助手、教育工具和聊天机器人等应用

模型特点

埃及阿拉伯语优化

专门针对埃及阿拉伯语方言进行优化，提供更自然的语音输出

基于XTTS v2架构

采用先进的XTTS v2架构，确保高质量的语音合成效果

多场景适用

可广泛应用于语音助手、教育工具和聊天机器人等多种场景

模型能力

埃及阿拉伯语文本转语音

语音合成

多说话人支持

使用案例

语音交互应用

语音助手

为埃及阿拉伯语用户提供自然语音交互体验

提升用户体验和交互自然度

教育工具

将教育内容转换为埃及阿拉伯语语音输出

帮助学习者更好地理解和记忆

客户服务

聊天机器人

为埃及用户提供本地化语音交互的客服机器人

提高客户满意度和服务效率

🚀 EGTTS V0.1

EGTTS V0.1是一款专门为埃及阿拉伯语设计的先进文本转语音（TTS）模型。它基于XTTS v2架构，能够将书面的埃及阿拉伯语文本转换为自然流畅的语音，可广泛应用于语音助手、教育工具和聊天机器人等各种场景，实现无缝交流。

🚀 快速开始

安装依赖

pip install git+https://github.com/coqui-ai/TTS

pip install transformers

pip install deepspeed

推理

加载模型

import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

运行模型

from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

✨ 主要特性

专为埃及阿拉伯语设计，能将书面文本转换为自然语音。
基于XTTS v2架构，可应用于语音助手、教育工具和聊天机器人等多种场景。

💻 使用示例

基础用法

# 加载模型
import os
import torch
import torchaudio
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

CONFIG_FILE_PATH = 'path/to/config.json'
VOCAB_FILE_PATH = 'path/to/vocab.json'
MODEL_PATH = 'path/to/model'
SPEAKER_AUDIO_PATH = 'path/to/speaker.wav'

print("Loading model...")
config = XttsConfig()
config.load_json(CONFIG_FILE_PATH)
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir=MODEL_PATH, use_deepspeed=True, vocab_path=VOCAB_FILE_PATH)
model.cuda()

print("Computing speaker latents...")
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=[SPEAKER_AUDIO_PATH])

# 运行模型
from IPython.display import Audio, display

text = "صباح الخير"
print("Inference...")
out = model.inference(
    text,
    "ar",
    gpt_cond_latent,
    speaker_embedding,
    temperature=0.75,
)

AUDIO_OUTPUT_PATH = "path/to/output_audio.wav"
torchaudio.save("xtts_audio.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
display(Audio(AUDIO_OUTPUT_PATH, autoplay=True))

📚 详细文档

试用模型

✨ 亲身体验EGTTS V0.1的魅力！ 可直接通过此HuggingFace Space试用该模型。

查看代码

💻 深入了解实现细节！ 可在GitHub上查看完整代码。

📄 许可证

许可证类型：other
许可证名称：coqui-public-model-license

引用

@misc{OmarSamir,
      author = {Omar Samir, Youssef Waleed, Youssef Tamer ,and Amir Mohamed},
      title = {Fine-Tuning XTTS V2 for Egyptian Arabic},
      year = {2024},
      url = {https://github.com/joejoe03/Egyptian-Text-To-Speech},
}