XTTS-v2オープンソース音声生成モデル - 無料で利用可能、6秒で音色をクローン、17種類の言語に対応

ホーム

XTTS V2

coquiによって開発

ⓍTTSは革新的な音声生成モデルで、わずか6秒の音声サンプルでクロスランゲージ音声クローンを実現し、17言語をサポートします。

音声合成オープンソースライセンス:その他 #6秒音声クローン #クロスランゲージ音声合成 #多言語サポート

ダウンロード数 1.7M

リリース時間 : 10/31/2023

モデル概要

ⓍTTSは先進的な音声合成モデルで、極めて短い音声サンプルから音声特徴をクローンし、多言語音声合成と感情スタイル転移をサポートします。

モデル特徴

高速音声クローン

わずか6秒の音声でターゲット音声をクローン可能

多言語サポート

17言語の音声合成をサポート

感情スタイル転移

クローン技術で感情とスタイルの変換を実現

高品質出力

24kHzサンプリングレートで高忠実度音質を提供

複数音声特徴融合

複数の参照音声特徴を融合可能

モデル能力

テキスト読み上げ

音声クローン

クロスランゲージ音声合成

感情スタイル転移

多言語サポート

使用事例

音声合成

パーソナライズ音声アシスタント

音声アシスタント向けに個性的な音声を作成

自然で個性的な音声インタラクション体験を実現

多言語音声コンテンツ制作

同一音声で異なる言語の音声コンテンツを生成

多言語コンテンツ制作プロセスを簡素化

エンターテインメント

ゲームキャラクターボイス

ゲームキャラクター向けに迅速に個性的な音声を生成

ゲーム音声制作コストを削減

🚀 ⓍTTS

ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使って、様々な言語に音声をクローンすることができます。何時間にもわたる大量のトレーニングデータは必要ありません。

このモデルは、Coqui Studio や Coqui API で使用されているモデルと同じ、または類似したものです。

✨ 主な機能

17言語をサポートします。
わずか6秒の音声クリップで音声をクローンできます。
クローニングによる感情とスタイルの転送が可能です。
異言語間の音声クローニングができます。
多言語の音声生成が可能です。
サンプリングレートは24kHzです。

🆕 XTTS-v1からの更新点

ハンガリー語と韓国語の2つの新しい言語が追加されました。
話者コンディショニングのアーキテクチャが改善されました。
複数の話者参照の使用と話者間の補間が可能になりました。
安定性が向上しました。
全体的に韻律と音質が改善されました。

🌐 サポート言語

XTTS-v2は17言語をサポートしています。英語 (en)、スペイン語 (es)、フランス語 (fr)、ドイツ語 (de)、イタリア語 (it)、ポルトガル語 (pt)、ポーランド語 (pl)、トルコ語 (tr)、ロシア語 (ru)、オランダ語 (nl)、チェコ語 (cs)、アラビア語 (ar)、中国語 (zh-cn)、日本語 (ja)、ハンガリー語 (hu)、韓国語 (ko)、ヒンディー語 (hi) 。

今後もさらなる言語のサポートを追加していく予定です。特定の言語のサポートを希望する場合は、ご連絡ください！

💻 使用例

基本的な使用法

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

コマンドラインでの使用

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

モデルを直接使用する場合

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

📚 ドキュメント

属性	详情
ライブラリ名	coqui
パイプラインタグ	text-to-speech
デモスペース	XTTS Space、XTTS Voice Chat with Mistral or Zephyr
コードベース	GitHub
ドキュメント	ReadTheDocs
質問	GitHub Discussions
コミュニティ	Discord