🚀 ⓍTTS
ⓍTTS是一款語音生成模型,僅需一段6秒的音頻片段,就能將語音克隆到不同語言中,無需大量長達數小時的訓練數據。該模型與為Coqui Studio和Coqui API提供支持的模型相同或相似。
🚀 快速開始
你可以通過以下幾種方式使用ⓍTTS模型:
使用🐸TTS API
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
使用🐸TTS命令行
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
--text "Bugün okula gitmek istemiyorum." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx tr \
--use_cuda true
直接使用模型
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="en",
)
✨ 主要特性
- 支持17種語言。
- 僅需6秒音頻片段即可進行語音克隆。
- 通過克隆實現情感和風格轉移。
- 跨語言語音克隆。
- 多語言語音生成。
- 24kHz採樣率。
🆕 相較於XTTS-v1的更新
- 新增2種語言:匈牙利語和韓語。
- 對說話人調節進行了架構改進。
- 支持使用多個說話人參考並在說話人之間進行插值。
- 穩定性提升。
- 整體韻律和音頻質量更佳。
🌐 支持的語言
XTTS-v2支持17種語言:英語(en)、西班牙語(es)、法語(fr)、德語(de)、意大利語(it)、葡萄牙語(pt)、波蘭語(pl)、土耳其語(tr)、俄語(ru)、荷蘭語(nl)、捷克語(cs)、阿拉伯語(ar)、中文(zh-cn)、日語(ja)、匈牙利語(hu)、韓語(ko)、印地語(hi)。
我們會持續添加更多語言支持,若你有特定語言需求,歡迎隨時反饋!
💻 使用示例
基礎用法
上述快速開始部分的代碼示例展示了基礎的使用方式,例如使用API、命令行和直接調用模型進行語音合成。
高級用法
暫未提供高級用法的相關代碼示例,你可以關注代碼庫獲取更多信息。
📚 詳細文檔
演示空間
📄 許可證
該模型採用Coqui公共模型許可證。生成式模型的許可證涉及諸多方面,你可以在此閱讀CPML的起源故事。
📞 聯繫我們
歡迎加入我們的🐸社區。我們活躍於Discord和Twitter,也可通過info@coqui.ai與我們郵件聯繫。