XTTS-v2開源語音生成模型 - 17種語言支持，6秒克隆聲音跨語言合成

首頁

XTTS V2

由shadialhakimi開發

ⓍTTS-v2是一個先進的語音生成模型，支持17種語言，僅需6秒音頻即可克隆聲音並實現跨語言語音合成。

語音合成開源協議:其他 #6秒克隆語音 #多語言語音生成 #情感風格遷移

下載量 6

發布時間 : 10/24/2024

模型概述

XTTS-v2是Coqui AI開發的文本轉語音模型，具有高質量語音合成、聲音克隆和跨語言轉換能力。它支持多種情感和風格遷移，採樣率為24kHz。

模型特點

多語言支持

支持17種語言的語音合成和聲音克隆

快速聲音克隆

僅需6秒音頻片段即可克隆目標聲音

跨語言轉換

可將克隆的聲音用於不同語言的語音合成

情感風格遷移

能夠保留並轉換原始語音的情感和風格特徵

高質量輸出

24kHz採樣率提供高質量的語音合成效果

模型能力

文本轉語音

聲音克隆

跨語言語音合成

情感風格轉換

多說話人插值

使用案例

內容創作

有聲書製作

使用克隆的聲音為不同語言的有聲書配音

保持一致的敘述聲音同時支持多語言版本

視頻配音

為視頻內容生成多語言配音

快速創建本地化內容

輔助技術

語音輔助設備

為語音輔助設備提供個性化聲音選項

增強用戶體驗和可訪問性

教育

語言學習

生成目標語言的發音示例

幫助學習者掌握正確發音

🚀 ⓍTTS

ⓍTTS是一款語音生成模型，僅需一段6秒的音頻片段，就能將語音克隆到不同語言中，無需大量長達數小時的訓練數據。該模型與為Coqui Studio和Coqui API提供支持的模型相同或相似。

🚀 快速開始

你可以通過以下幾種方式使用ⓍTTS模型：

使用🐸TTS API

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

使用🐸TTS命令行

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

直接使用模型

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

✨ 主要特性

支持17種語言。
僅需6秒音頻片段即可進行語音克隆。
通過克隆實現情感和風格轉移。
跨語言語音克隆。
多語言語音生成。
24kHz採樣率。

🆕 相較於XTTS-v1的更新

新增2種語言：匈牙利語和韓語。
對說話人調節進行了架構改進。
支持使用多個說話人參考並在說話人之間進行插值。
穩定性提升。
整體韻律和音頻質量更佳。

🌐 支持的語言

XTTS-v2支持17種語言：英語（en）、西班牙語（es）、法語（fr）、德語（de）、意大利語（it）、葡萄牙語（pt）、波蘭語（pl）、土耳其語（tr）、俄語（ru）、荷蘭語（nl）、捷克語（cs）、阿拉伯語（ar）、中文（zh-cn）、日語（ja）、匈牙利語（hu）、韓語（ko）、印地語（hi）。

我們會持續添加更多語言支持，若你有特定語言需求，歡迎隨時反饋！