XTTS-v2-argentinian-spanish开源语音生成模型 - 6秒克隆声音用于多语言，支持阿根廷西语

首页

XTTS V2 Argentinian Spanish

由 UNRN 开发

ⓍTTS是一款语音生成模型，仅需6秒音频即可克隆声音并应用于不同语言，支持阿根廷口音西班牙语。

语音合成西班牙语开源协议:其他 #少样本语音克隆 #阿根廷西班牙语 #多语言语音合成

下载量 16

发布时间 : 7/23/2024

模型简介

该模型由IdeaLab在里奥内格罗国立大学CITECCA中心训练完成，通过微调实现了阿根廷口音的西班牙语语音生成。

模型特点

快速语音克隆

仅需6秒的音频片段即可克隆目标声音

多语言支持

可将克隆的声音应用于不同语言的语音生成

特定口音优化

专门针对阿根廷西班牙语口音进行了优化

高效训练

无需大量训练数据即可获得良好效果

模型能力

语音克隆

文本转语音

多语言语音生成

特定口音语音合成

使用案例

语音合成应用

个性化语音助手

为语音助手创建个性化的阿根廷口音语音

生成自然流畅的阿根廷西班牙语语音

有声内容创作

为有声书、播客等内容快速生成特定声音

节省录音时间和成本

无障碍应用

为视障用户提供个性化的语音阅读体验

提升用户体验

🚀 ⓍTTS 🇦🇷

ⓍTTS是一款语音生成模型，仅需一段6秒的音频片段，就能将语音克隆到不同语言中，无需大量长达数小时的训练数据。该模型由IdeaLab在国立里奥内格罗大学的CITECCA中训练而成。

✨ 主要特性

仅需6秒音频片段，即可实现语音克隆。
无需大量训练数据。
经过微调，具有阿根廷口音。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用🐸TTS命令行：

 tts --model_name /path/to/xtts/ \
     --text "Che boludo, vamos a tomar unos mates." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx es \
     --use_cuda true

高级用法

直接使用模型：

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "Che boludo, vamos a tomar unos mates.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="es",
)

📚 详细文档

语言

该模型的西班牙语已使用ylacombe的谷歌阿根廷西班牙语数据集进行微调，以实现阿根廷口音。

训练参数

batch_size=8,
grad_accum_steps=96,
batch_group_size=48,
eval_batch_size=8,
num_loader_workers=8,
eval_split_max_size=256,
optimizer="AdamW",
optimizer_wd_only_on_weights=True,
optimizer_params={"betas": [0.9, 0.96], "eps": 1e-8, "weight_decay": 1e-2},
lr=5e-06, 
lr_scheduler="MultiStepLR",
lr_scheduler_params={"milestones": [50000 * 18, 150000 * 18, 300000 * 18], "gamma": 0.5, "last_epoch": -1},

🔧 技术细节

文档未提供足够的技术实现细节，故跳过此章节。

📄 许可证

该模型遵循Coqui公共模型许可证。生成模型的许可证涉及诸多方面，你可以在此阅读CPML的起源故事。

属性	详情
模型类型	语音生成模型
训练数据	ylacombe的谷歌阿根廷西班牙语数据集
许可证	Coqui公共模型许可证
许可证链接	https://coqui.ai/cpml
库名称	coqui
任务类型	文本转语音