XTTS-v2開源語音生成模型 - 免費使用，6秒克隆音色支持17種語言

Home

XTTS V2

Developed by coqui

ⓍTTS是一款革命性的語音生成模型，僅需6秒音頻片段即可實現跨語言音色克隆，支持17種語言。

語音合成 Open Source License:Other #6秒音色克隆 #跨語言語音合成 #多語言支持

Downloads 1.7M

Release Time : 10/31/2023

Model Overview

ⓍTTS是一款先進的語音合成模型，能夠通過極短的音頻樣本克隆音色，並支持多語言語音合成與情感風格遷移。

Model Features

快速音色克隆

僅需6秒音頻即可克隆目標音色

跨語言支持

支持17種語言的語音合成

情感風格遷移

可通過克隆實現情感與風格的轉換

高質量輸出

24kHz採樣率提供高保真音質

多參考音色融合

支持融合多個參考音色特徵

Model Capabilities

文本轉語音

音色克隆

跨語言語音合成

情感風格遷移

多語言支持

Use Cases

語音合成

個性化語音助手

為語音助手創建個性化音色

實現自然、個性化的語音交互體驗

多語言有聲內容創作

使用同一音色生成不同語言的語音內容

簡化多語言內容製作流程

娛樂應用

遊戲角色配音

快速生成遊戲角色的個性化語音

降低遊戲配音成本

🚀 ⓍTTS

ⓍTTS是一款語音生成模型，只需一個簡短的6秒音頻片段，就能將語音克隆到不同語言中，無需大量耗時的訓練數據。

🚀 快速開始

ⓍTTS可讓你僅用6秒的音頻片段，就能將語音克隆到不同語言中，無需大量時長的訓練數據。該模型與為Coqui Studio和Coqui API提供支持的模型相同或相似。

✨ 主要特性

支持17種語言。
僅需6秒音頻片段即可進行語音克隆。
通過克隆實現情感和風格遷移。
跨語言語音克隆。
多語言語音生成。
24kHz採樣率。

🔍 XTTS-v2相較於XTTS-v1的更新

新增2種語言：匈牙利語和韓語。
對說話人調節進行了架構改進。
支持使用多個說話人參考並在說話人之間進行插值。
穩定性得到提升。
整體韻律和音頻質量更好。

🌐 支持的語言

XTTS-v2支持17種語言：英語 (en)、西班牙語 (es)、法語 (fr)、德語 (de)、意大利語 (it)、葡萄牙語 (pt)、波蘭語 (pl)、土耳其語 (tr)、俄語 (ru)、荷蘭語 (nl)、捷克語 (cs)、阿拉伯語 (ar)、中文 (zh-cn)、日語 (ja)、匈牙利語 (hu)、韓語 (ko)、印地語 (hi)。

我們會持續添加更多語言支持，敬請關注。如果你有特定語言需求，歡迎隨時聯繫我們！

💻 使用示例

基礎用法

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

高級用法

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

📚 詳細文檔

代碼庫：代碼庫支持推理和微調。
演示空間：
- XTTS Space：你可以查看模型在支持語言上的表現，並使用自己的參考音頻或麥克風輸入進行嘗試。
- XTTS Voice Chat with Mistral or Zephyr：你可以體驗與Mistral 7B Instruct或Zephyr 7B Beta的流式語音聊天。