XTTS-v2-Urdu-FTオープンソースTTSモデル - 無料でウルドゥー語のテキストを音声に変換し、音声クローニングを実現

ホーム

XTTS V2 Urdu FT

suhaibrashid17によって開発

ウルドゥー語のテキスト読み上げと音声クローンをサポートするTTSモデル

音声合成オープンソースライセンス:MIT #ウルドゥー語TTS #音声クローン #多言語対応

ダウンロード数 70

リリース時間 : 12/11/2024

モデル概要

このモデルはウルドゥー語のテキストを自然な音声に変換でき、参照音声を使用して音声クローンを行い、参照音声に似た音色の音声を生成できます。

モデル特徴

ウルドゥー語対応

ウルドゥー語に最適化された音声合成機能

音声クローン

参照音声から話者の音色をクローン可能

高品質合成

生成される音声は高品質で自然な音声

モデル能力

テキスト読み上げ

音声クローン

複数話者音声合成

使用事例

音声アプリケーション

オーディオブック生成

ウルドゥー語テキストをオーディオブックに変換

自然で流暢な音声出力

音声アシスタント

ウルドゥー語音声アシスタント向け音声合成機能提供

カスタマイズ可能な音色の音声応答

音声クローンサービス

特定の話者の音声スタイルをクローン

元の話者の音色特徴を保持した合成音声

🚀 ウルドゥー語テキスト読み上げモデル

このモデルはウルドゥー語のテキストを音声に変換する機能を提供し、音声クローニングもサポートしています。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

📦 インストール

pip install coqui-tts
サイトパッケージディレクトリ内の TTS/tts/layers/xtts/tokenizers.py を見つけます。
このリポジトリ内の tokenizers.py で上記のファイルを置き換えます。
以上でインストールは完了です！

⚠️ 重要提示

このモデルは非常に長い入力に対しては性能が低下する可能性があります。必要に応じて、独自のテキスト分割器を作成して、長い入力を短い文に分割することができます。

💻 使用例

基本的な使用法

import torch
import torchaudio
from tqdm import tqdm
from underthesea import sent_tokenize
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

device = "cuda:0" if torch.cuda.is_available() else "cpu"
xtts_checkpoint = "model.pth"
xtts_config = "config.json"
xtts_vocab = "vocab.json"


config = XttsConfig()
config.load_json(xtts_config)
XTTS_MODEL = Xtts.init_from_config(config)
XTTS_MODEL.load_checkpoint(config, checkpoint_path=xtts_checkpoint, vocab_path=xtts_vocab, use_deepspeed=False)
XTTS_MODEL.to(device)

print("Model loaded successfully!")

# In case you are cloning from WhatsApp voice notes:
from pydub import AudioSegment

audio = AudioSegment.from_file("input-4.ogg", format="ogg")
audio.export("output.wav", format="wav")
print("Conversion complete!")

# Inference
tts_text = f"""یہ ٹی ٹی ایس کیسا ہے؟ اس کے بارے میں کچھ بتائیں"""
speaker_audio_file = "output.wav"
lang = "ur"

gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
    audio_path=["output.wav"],
    gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
    max_ref_length=XTTS_MODEL.config.max_ref_len,
    sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
)

tts_texts = [tts_text]
wav_chunks = []
for text in tqdm(tts_texts):
    wav_chunk = XTTS_MODEL.inference(
        text=text,
        language=lang,
        gpt_cond_latent=gpt_cond_latent,
        speaker_embedding=speaker_embedding,
        temperature=0.1,
        length_penalty=0.1,
        repetition_penalty=10.0,
        top_k=10,
        top_p=0.3,
    )
    wav_chunks.append(torch.tensor(wav_chunk["wav"]))

out_wav = torch.cat(wav_chunks, dim=0).unsqueeze(0).cpu()

from IPython.display import Audio
Audio(out_wav, rate=24000)