XTTS-v2開源語音生成模型 - 免費使用，6秒克隆音色支持17種語言

首頁

XTTS V2

由coqui開發

ⓍTTS是一款革命性的語音生成模型，僅需6秒音頻片段即可實現跨語言音色克隆，支持17種語言。

語音合成開源協議:其他 #6秒音色克隆 #跨語言語音合成 #多語言支持

下載量 1.7M

發布時間 : 10/31/2023

模型概述

ⓍTTS是一款先進的語音合成模型，能夠通過極短的音頻樣本克隆音色，並支持多語言語音合成與情感風格遷移。

模型特點

快速音色克隆

僅需6秒音頻即可克隆目標音色

跨語言支持

支持17種語言的語音合成

情感風格遷移

可通過克隆實現情感與風格的轉換

高質量輸出

24kHz採樣率提供高保真音質

多參考音色融合

支持融合多個參考音色特徵

模型能力

文本轉語音

音色克隆

跨語言語音合成

情感風格遷移

多語言支持

使用案例

語音合成

個性化語音助手

為語音助手創建個性化音色

實現自然、個性化的語音交互體驗

多語言有聲內容創作

使用同一音色生成不同語言的語音內容

簡化多語言內容製作流程

娛樂應用

遊戲角色配音

快速生成遊戲角色的個性化語音

降低遊戲配音成本

🚀 ⓍTTS

ⓍTTS是一款語音生成模型，只需一個簡短的6秒音頻片段，就能將語音克隆到不同語言中，無需大量耗時的訓練數據。

🚀 快速開始

ⓍTTS可讓你僅用6秒的音頻片段，就能將語音克隆到不同語言中，無需大量時長的訓練數據。該模型與為Coqui Studio和Coqui API提供支持的模型相同或相似。

✨ 主要特性

支持17種語言。
僅需6秒音頻片段即可進行語音克隆。
通過克隆實現情感和風格遷移。
跨語言語音克隆。
多語言語音生成。
24kHz採樣率。

🔍 XTTS-v2相較於XTTS-v1的更新

新增2種語言：匈牙利語和韓語。
對說話人調節進行了架構改進。
支持使用多個說話人參考並在說話人之間進行插值。
穩定性得到提升。
整體韻律和音頻質量更好。

🌐 支持的語言

XTTS-v2支持17種語言：英語 (en)、西班牙語 (es)、法語 (fr)、德語 (de)、意大利語 (it)、葡萄牙語 (pt)、波蘭語 (pl)、土耳其語 (tr)、俄語 (ru)、荷蘭語 (nl)、捷克語 (cs)、阿拉伯語 (ar)、中文 (zh-cn)、日語 (ja)、匈牙利語 (hu)、韓語 (ko)、印地語 (hi)。

我們會持續添加更多語言支持，敬請關注。如果你有特定語言需求，歡迎隨時聯繫我們！

💻 使用示例

基礎用法

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

高級用法

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

📚 詳細文檔

代碼庫：代碼庫支持推理和微調。
演示空間：
- XTTS Space：你可以查看模型在支持語言上的表現，並使用自己的參考音頻或麥克風輸入進行嘗試。
- XTTS Voice Chat with Mistral or Zephyr：你可以體驗與Mistral 7B Instruct或Zephyr 7B Beta的流式語音聊天。