XTTS-v2オープンソース音声生成モデル - たった6秒の音声で16言語にまたがる声をクローン化

ホーム

XTTS V2

reach-vbによって開発

ⓍTTSは先進的な音声生成モデルで、わずか6秒の音声でクロスランゲージ音声クローンを実現し、16言語をサポートします。

音声合成

Transformers

オープンソースライセンス:その他 #6秒音声クローン #クロスランゲージ音声合成 #多言語対応

ダウンロード数 125

リリース時間 : 11/14/2023

モデル概要

ⓍTTSは深層学習に基づく音声生成モデルで、極めて短い音声サンプルから音声をクローンし、多言語音声を生成できます。感情とスタイルの転移もサポートしています。

モデル特徴

極短サンプルクローン

わずか6秒の音声で高品質な音声クローンを実現

多言語サポート

16言語の音声生成とクロスランゲージクローンをサポート

感情スタイル転移

クローンを通じて感情とスタイルの変換が可能

音質向上

24kHzサンプリングレートで韻律と音質を全面的に改善

モデル能力

テキスト読み上げ

音声クローン

クロスランゲージ音声生成

感情スタイル転移

複数話者参照

音声補間

使用事例

音声合成

パーソナライズ音声アシスタント

音声アシスタントに個性的な音声を作成

自然で滑らかな個性的な音声出力

多言語コンテンツ制作

動画、ポッドキャストなどのコンテンツに多言語音声を追加

同じ音声特性を維持した多言語音声

アクセシビリティ技術

音声復元

音声能力を失った人の個人音声を復元

個人の音声特性を保持した音声出力

🚀 ⓍTTS

ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使用することで、音声を異なる言語にクローンすることができます。何時間にもわたる大量のトレーニングデータは必要ありません。

このモデルは、Coqui Studio や Coqui API で使用されているモデルと同じ、または類似したものです。

🚀 クイックスタート

ⓍTTSは、短い音声クリップを使って音声をクローンすることができる音声生成モデルです。以下に、このモデルを使用するための基本的な手順を示します。

✨ 主な機能

16の言語をサポートします。
わずか6秒の音声クリップで音声クローンが可能です。
クローンによる感情とスタイルの転送ができます。
異言語間の音声クローンが可能です。
多言語の音声生成ができます。
サンプリングレートは24kHzです。

🆕 XTTS-v1からの更新点

ハンガリー語と韓国語の2つの新しい言語が追加されました。
話者コンディショニングのためのアーキテクチャが改善されました。
複数の話者参照の使用と話者間の補間が可能になりました。
安定性が向上しました。
全体的に韻律と音声品質が改善されました。

🌐 サポート言語

XTTS-v2は16の言語をサポートしています。英語 (en)、スペイン語 (es)、フランス語 (fr)、ドイツ語 (de)、イタリア語 (it)、ポルトガル語 (pt)、ポーランド語 (pl)、トルコ語 (tr)、ロシア語 (ru)、オランダ語 (nl)、チェコ語 (cs)、アラビア語 (ar)、中国語 (zh-cn)、日本語 (ja)、ハンガリー語 (hu)、韓国語 (ko)

今後もさらに多くの言語のサポートを追加していく予定です。特定の言語のサポートを希望する場合は、お気軽にお問い合わせください！

💻 使用例

基本的な使用法

🐸TTS APIを使用する場合

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

🐸TTSコマンドラインを使用する場合

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

モデルを直接使用する場合

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

📚 詳細ドキュメント

コードベース：コードベースは推論とファインチューニングをサポートしています。
デモスペース：
- XTTS Space：サポートされている言語でのモデルの動作を確認し、独自の参照音声またはマイク入力を試すことができます。
- XTTS Voice Chat with Mistral or Zephyr：Mistral 7B InstructまたはZephyr 7B Betaを使用したストリーミング音声チャットを体験できます。