XTTS-v1开源语音生成模型 - 免费部署，6秒克隆声音支持多语言应用

Home

XTTS V1

Developed by coqui

ⓍTTS 是一款语音生成模型，仅需6秒的音频片段即可克隆声音并应用于不同语言。

语音合成 Open Source License:Other #跨语言语音克隆 #6秒快速克隆 #多语言合成

Downloads 5,449

Release Time : 9/13/2023

Model Overview

基于Tortoise架构的跨语言语音克隆与生成模型，支持14种语言，可实现情感与风格迁移。

Model Features

快速声音克隆

仅需6秒音频即可克隆目标声音特征

跨语言支持

支持14种语言的语音生成与跨语言克隆

情感迁移

可保留原始音频的情感与风格特征

高质量输出

24kHz采样率生成自然语音

Model Capabilities

文本转语音

语音克隆

跨语言语音生成

情感风格迁移

Use Cases

内容创作

多语言有声内容生成

为视频、播客等内容快速生成多语言配音

保持统一声音特征的同时支持多种语言输出

辅助技术

语音辅助工具

为语言障碍者创建个性化语音输出

使用少量样本即可还原用户原有声音特征

🚀 ⓍTTS

ⓍTTS是一款语音生成模型，仅需一段6秒的音频片段，就能将声音克隆到不同语言中。它基于Tortoise构建，对模型进行了重要改进，让跨语言语音克隆和多语言语音生成变得超级简单，无需大量耗时的训练数据。

这个模型也是Coqui Studio和Coqui API的底层支持，不过我们使用了一些技巧让它更快，并支持流式推理。

🚀 快速开始

代码示例

本模型当前的实现支持推理和微调。以下是不同方式使用该模型的代码示例：

基础用法

使用🐸TTS API：

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

使用🐸TTS命令行：

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

高级用法

直接使用模型：

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)