XTTS-v1開源語音生成模型 - 免費部署，6秒克隆聲音支持多語言應用

首頁

XTTS V1

由coqui開發

ⓍTTS 是一款語音生成模型，僅需6秒的音頻片段即可克隆聲音並應用於不同語言。

語音合成開源協議:其他 #跨語言語音克隆 #6秒快速克隆 #多語言合成

下載量 5,449

發布時間 : 9/13/2023

模型概述

基於Tortoise架構的跨語言語音克隆與生成模型，支持14種語言，可實現情感與風格遷移。

模型特點

快速聲音克隆

僅需6秒音頻即可克隆目標聲音特徵

跨語言支持

支持14種語言的語音生成與跨語言克隆

情感遷移

可保留原始音頻的情感與風格特徵

高質量輸出

24kHz採樣率生成自然語音

模型能力

文本轉語音

語音克隆

跨語言語音生成

情感風格遷移

使用案例

內容創作

多語言有聲內容生成

為視頻、播客等內容快速生成多語言配音

保持統一聲音特徵的同時支持多種語言輸出

輔助技術

語音輔助工具

為語言障礙者創建個性化語音輸出

使用少量樣本即可還原用戶原有聲音特徵

🚀 ⓍTTS

ⓍTTS是一款語音生成模型，僅需一段6秒的音頻片段，就能將聲音克隆到不同語言中。它基於Tortoise構建，對模型進行了重要改進，讓跨語言語音克隆和多語言語音生成變得超級簡單，無需大量耗時的訓練數據。

這個模型也是Coqui Studio和Coqui API的底層支持，不過我們使用了一些技巧讓它更快，並支持流式推理。

🚀 快速開始

代碼示例

本模型當前的實現支持推理和微調。以下是不同方式使用該模型的代碼示例：

基礎用法

使用🐸TTS API：

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

使用🐸TTS命令行：

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

高級用法

直接使用模型：

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)