🚀 ⓍTTS 🇦🇷
ⓍTTS是一款語音生成模型,僅需一段6秒的音頻片段,就能將語音克隆到不同語言中,無需大量長達數小時的訓練數據。該模型由IdeaLab在國立里奧內格羅大學的CITECCA中訓練而成。
✨ 主要特性
- 僅需6秒音頻片段,即可實現語音克隆。
- 無需大量訓練數據。
- 經過微調,具有阿根廷口音。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
使用🐸TTS命令行:
tts --model_name /path/to/xtts/ \
--text "Che boludo, vamos a tomar unos mates." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx es \
--use_cuda true
高級用法
直接使用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"Che boludo, vamos a tomar unos mates.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="es",
)
📚 詳細文檔
語言
該模型的西班牙語已使用ylacombe的谷歌阿根廷西班牙語數據集進行微調,以實現阿根廷口音。
訓練參數
batch_size=8,
grad_accum_steps=96,
batch_group_size=48,
eval_batch_size=8,
num_loader_workers=8,
eval_split_max_size=256,
optimizer="AdamW",
optimizer_wd_only_on_weights=True,
optimizer_params={"betas": [0.9, 0.96], "eps": 1e-8, "weight_decay": 1e-2},
lr=5e-06,
lr_scheduler="MultiStepLR",
lr_scheduler_params={"milestones": [50000 * 18, 150000 * 18, 300000 * 18], "gamma": 0.5, "last_epoch": -1},
🔧 技術細節
文檔未提供足夠的技術實現細節,故跳過此章節。
📄 許可證
該模型遵循Coqui公共模型許可證。生成模型的許可證涉及諸多方面,你可以在此閱讀CPML的起源故事。
屬性 |
詳情 |
模型類型 |
語音生成模型 |
訓練數據 |
ylacombe的谷歌阿根廷西班牙語數據集 |
許可證 |
Coqui公共模型許可證 |
許可證鏈接 |
https://coqui.ai/cpml |
庫名稱 |
coqui |
任務類型 |
文本轉語音 |