XTTS-v2-Urdu-FT开源TTS模型 - 免费实现乌尔都语文本转语音与语音克隆

首页

XTTS V2 Urdu FT

由 suhaibrashid17 开发

一个支持乌尔都语文本转语音和语音克隆的TTS模型

语音合成开源协议:MIT #乌尔都语TTS #语音克隆 #多语言支持

下载量 70

发布时间 : 12/11/2024

模型简介

该模型能够将乌尔都语文本转换为自然语音，并支持通过参考音频进行语音克隆，生成与参考音频相似音色的语音。

模型特点

乌尔都语支持

专门针对乌尔都语优化的语音合成能力

语音克隆

可以通过参考音频克隆说话人音色

高质量合成

生成的语音质量高，自然度好

模型能力

文本转语音

语音克隆

多说话人语音合成

使用案例

语音应用

有声读物生成

将乌尔都语文本转换为有声读物

自然流畅的语音输出

语音助手

为乌尔都语语音助手提供语音合成能力

可定制音色的语音响应

语音克隆服务

克隆特定说话人的语音风格

保持原说话人音色特征的合成语音

🚀 乌尔都语文本转语音模型

本项目是一个乌尔都语文本转语音（TTS）模型，支持乌尔都语语音克隆，可将乌尔都语文本转换为自然流畅的语音。

🚀 快速开始

安装指南

使用 pip 安装 coqui-tts：

pip install coqui-tts

定位到你 site-packages 目录下的 TTS/tts/layers/xtts/tokenizers.py 文件。
用本仓库中的 tokenizers.py 文件替换上述文件。
完成以上步骤后，即可开始使用！

使用示例

源语音示例

你可以点击下面的播放器收听源语音：

生成语音示例

点击下面的播放器收听生成的语音：

推理代码

以下是使用该模型进行推理的代码示例：

import torch
import torchaudio
from tqdm import tqdm
from underthesea import sent_tokenize
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

device = "cuda:0" if torch.cuda.is_available() else "cpu"
xtts_checkpoint = "model.pth"
xtts_config = "config.json"
xtts_vocab = "vocab.json"


config = XttsConfig()
config.load_json(xtts_config)
XTTS_MODEL = Xtts.init_from_config(config)
XTTS_MODEL.load_checkpoint(config, checkpoint_path=xtts_checkpoint, vocab_path=xtts_vocab, use_deepspeed=False)
XTTS_MODEL.to(device)

print("Model loaded successfully!")

# In case you are cloning from WhatsApp voice notes:
from pydub import AudioSegment

audio = AudioSegment.from_file("input-4.ogg", format="ogg")
audio.export("output.wav", format="wav")
print("Conversion complete!")

# Inference
tts_text = f"""یہ ٹی ٹی ایس کیسا ہے؟ اس کے بارے میں کچھ بتائیں"""
speaker_audio_file = "output.wav"
lang = "ur"

gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
    audio_path=["output.wav"],
    gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
    max_ref_length=XTTS_MODEL.config.max_ref_len,
    sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
)

tts_texts = [tts_text]
wav_chunks = []
for text in tqdm(tts_texts):
    wav_chunk = XTTS_MODEL.inference(
        text=text,
        language=lang,
        gpt_cond_latent=gpt_cond_latent,
        speaker_embedding=speaker_embedding,
        temperature=0.1,
        length_penalty=0.1,
        repetition_penalty=10.0,
        top_k=10,
        top_p=0.3,
    )
    wav_chunks.append(torch.tensor(wav_chunk["wav"]))

out_wav = torch.cat(wav_chunks, dim=0).unsqueeze(0).cpu()

from IPython.display import Audio
Audio(out_wav, rate=24000)