XTTS-v2開源語音生成模型 - 僅用6秒音頻跨16種語言克隆聲音

首頁

XTTS V2

由reach-vb開發

ⓍTTS是一款先進的語音生成模型，僅需6秒音頻即可實現跨語言聲音克隆，支持16種語言。

語音合成

Transformers

開源協議:其他 #6秒聲音克隆 #跨語言語音合成 #多語言支持

下載量 125

發布時間 : 11/14/2023

模型概述

ⓍTTS是一款基於深度學習的語音生成模型，能夠通過極短的音頻樣本克隆聲音並生成多語言語音，支持情感與風格遷移。

模型特點

極短樣本克隆

僅需6秒音頻即可實現高質量聲音克隆

多語言支持

支持16種語言的語音生成和跨語言克隆

情感風格遷移

能夠通過克隆實現情感與風格的轉換

音質提升

24kHz採樣率，全面改善韻律與音質

模型能力

文本轉語音

聲音克隆

跨語言語音生成

情感風格遷移

多說話人參考

聲音插值

使用案例

語音合成

個性化語音助手

為語音助手創建個性化聲音

自然流暢的個性化語音輸出

多語言內容創作

為視頻、播客等內容創建多語言配音

保持相同聲音特徵的多語言語音

無障礙技術

語音恢復

為失去語音能力的人恢復個人聲音

保留個人聲音特徵的語音輸出

🚀 ⓍTTS

ⓍTTS是一款語音生成模型，只需短短6秒的音頻片段，就能將聲音克隆到不同語言中，無需大量耗時的訓練數據。

該模型與為Coqui Studio和Coqui API提供支持的模型相同或相似。

🚀 快速開始

使用🐸TTS API

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

使用🐸TTS命令行

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

直接使用模型

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

✨ 主要特性

支持16種語言。
僅需6秒音頻片段即可進行聲音克隆。
通過克隆實現情感和風格轉移。
跨語言聲音克隆。
多語言語音生成。
24kHz採樣率。

📚 詳細文檔

相較於XTTS - v1的更新

新增2種語言：匈牙利語和韓語。
對說話人調節進行了架構改進。
支持使用多個說話人參考並在說話人之間進行插值。
穩定性提升。
整體韻律和音頻質量更佳。

支持的語言

XTTS - v2支持16種語言：英語 (en)、西班牙語 (es)、法語 (fr)、德語 (de)、意大利語 (it)、葡萄牙語 (pt)、波蘭語 (pl)、土耳其語 (tr)、俄語 (ru)、荷蘭語 (nl)、捷克語 (cs)、阿拉伯語 (ar)、中文 (zh - cn)、日語 (ja)、匈牙利語 (hu) 和韓語 (ko)。

我們會持續添加更多語言支持，若您有語言需求，歡迎隨時聯繫我們！

代碼

[代碼庫](https://github.com/coqui - ai/TTS)支持推理和微調。

演示空間

XTTS Space：您可以查看模型在支持語言上的表現，並使用自己的參考音頻或麥克風輸入進行嘗試。
[XTTS Voice Chat with Mistral or Zephyr](https://huggingface.co/spaces/coqui/voice - chat - with - mistral)：您可以體驗與Mistral 7B Instruct或Zephyr 7B Beta的流式語音聊天。