🚀 ⓍTTS
ⓍTTS是一款语音生成模型,仅需一段6秒的音频片段,就能将声音克隆到不同语言中。它基于Tortoise构建,对模型进行了重要改进,让跨语言语音克隆和多语言语音生成变得超级简单,无需大量耗时的训练数据。
这个模型也是Coqui Studio和Coqui API的底层支持,不过我们使用了一些技巧让它更快,并支持流式推理。
🚀 快速开始
代码示例
本模型当前的实现支持推理和微调。以下是不同方式使用该模型的代码示例:
基础用法
使用🐸TTS API:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en",
decoder_iterations=30)
使用🐸TTS命令行:
tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
--text "Bugün okula gitmek istemiyorum." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx tr \
--use_cuda true
高级用法
直接使用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="en",
)
✨ 主要特性
- 支持14种语言。
- 仅需6秒音频片段即可进行语音克隆。
- 通过克隆实现情感和风格迁移。
- 跨语言语音克隆。
- 多语言语音生成。
- 采样率为24kHz。
📚 详细文档
支持语言
截至目前,XTTS-v1 (v1.1)支持14种语言:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文和日语。
我们会持续添加更多语言支持,敬请期待!如果您有特定语言需求,请随时联系我们。
注意事项
ⓍTTS V2模型已发布,点击XTTS V2查看。
联系我们
欢迎加入我们的🐸社区。我们活跃在Discord和Twitter上,也可以通过info@coqui.ai给我们发邮件。
📄 许可证
本模型采用Coqui公共模型许可证。生成模型的许可证涉及诸多方面,您可以点击此处了解CPML的更多起源故事。