🚀 ⓍTTS
ⓍTTS是一款語音生成模型,僅需一段6秒的音頻片段,就能將聲音克隆到不同語言中。它基於Tortoise構建,對模型進行了重要改進,讓跨語言語音克隆和多語言語音生成變得超級簡單,無需大量耗時的訓練數據。
這個模型也是Coqui Studio和Coqui API的底層支持,不過我們使用了一些技巧讓它更快,並支持流式推理。
🚀 快速開始
代碼示例
本模型當前的實現支持推理和微調。以下是不同方式使用該模型的代碼示例:
基礎用法
使用🐸TTS API:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en",
decoder_iterations=30)
使用🐸TTS命令行:
tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
--text "Bugün okula gitmek istemiyorum." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx tr \
--use_cuda true
高級用法
直接使用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="en",
)
✨ 主要特性
- 支持14種語言。
- 僅需6秒音頻片段即可進行語音克隆。
- 通過克隆實現情感和風格遷移。
- 跨語言語音克隆。
- 多語言語音生成。
- 採樣率為24kHz。
📚 詳細文檔
支持語言
截至目前,XTTS-v1 (v1.1)支持14種語言:英語、西班牙語、法語、德語、意大利語、葡萄牙語、波蘭語、土耳其語、俄語、荷蘭語、捷克語、阿拉伯語、中文和日語。
我們會持續添加更多語言支持,敬請期待!如果您有特定語言需求,請隨時聯繫我們。
注意事項
ⓍTTS V2模型已發佈,點擊XTTS V2查看。
聯繫我們
歡迎加入我們的🐸社區。我們活躍在Discord和Twitter上,也可以通過info@coqui.ai給我們發郵件。
📄 許可證
本模型採用Coqui公共模型許可證。生成模型的許可證涉及諸多方面,您可以點擊此處瞭解CPML的更多起源故事。