XTTS-v2オープンソース音声生成モデル - 17種類の言語をサポート、6秒で声をクローンした多言語合成

ホーム

XTTS V2

shadialhakimiによって開発

ⓍTTS-v2は先進的な音声生成モデルで、17言語をサポートし、わずか6秒の音声で声をクローンし、クロスランゲージ音声合成を実現します。

音声合成オープンソースライセンス:その他 #6秒音声クローン #多言語音声生成 #感情スタイル転移

ダウンロード数 6

リリース時間 : 10/24/2024

モデル概要

XTTS-v2はCoqui AIが開発したテキスト読み上げモデルで、高品質な音声合成、声のクローン、クロスランゲージ変換機能を備えています。複数の感情やスタイル転移をサポートし、サンプリングレートは24kHzです。

モデル特徴

多言語サポート

17言語の音声合成と声のクローンをサポート

高速声クローン

わずか6秒の音声クリップでターゲットの声をクローン

クロスランゲージ変換

クローンした声を異なる言語の音声合成に使用可能

感情スタイル転移

元の音声の感情やスタイル特徴を保持・変換可能

高品質出力

24kHzサンプリングレートで高品質な音声合成効果を提供

モデル能力

テキスト読み上げ

声のクローン

クロスランゲージ音声合成

感情スタイル変換

複数話者補間

使用事例

コンテンツ制作

オーディオブック制作

クローンした声を使用して異なる言語のオーディオブックを吹き替え

一貫したナレーション音声を維持しながら多言語バージョンをサポート

動画吹き替え

動画コンテンツの多言語吹き替えを生成

ローカライズコンテンツを迅速に作成

支援技術

音声支援デバイス

音声支援デバイスに個性的な音声オプションを提供

ユーザー体験とアクセシビリティを向上

教育

言語学習

ターゲット言語の発音例を生成

学習者が正しい発音を習得するのを支援

🚀 ⓍTTS

ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使用することで、様々な言語に音声をクローンすることができます。何時間にもわたる大量のトレーニングデータは必要ありません。

このモデルは、Coqui Studio や Coqui API を駆動するモデルと同じ、または類似したものです。

✨ 主な機能

17の言語をサポートしています。
わずか6秒の音声クリップで音声クローンが可能です。
クローニングによる感情とスタイルの転送ができます。
異言語間の音声クローンが可能です。
多言語の音声生成が可能です。
24kHzのサンプリングレートです。

🆕 XTTS-v1からの更新点

ハンガリー語と韓国語の2つの新しい言語がサポートされました。
話者コンディショニングのアーキテクチャが改善されました。
複数の話者参照の使用と話者間の補間が可能になりました。
安定性が向上しました。
全体的に韻律と音声品質が向上しました。

🌐 サポート言語

XTTS-v2は17の言語をサポートしています。英語 (en)、スペイン語 (es)、フランス語 (fr)、ドイツ語 (de)、イタリア語 (it)、ポルトガル語 (pt)、ポーランド語 (pl)、トルコ語 (tr)、ロシア語 (ru)、オランダ語 (nl)、チェコ語 (cs)、アラビア語 (ar)、中国語 (zh-cn)、日本語 (ja)、ハンガリー語 (hu)、韓国語 (ko)、ヒンディー語 (hi)。

今後もさらに多くの言語のサポートを追加していく予定です。特定の言語のサポートを希望する場合は、お気軽にお問い合わせください！

📦 インストール

コードベースは推論と微調整をサポートしています。

💻 使用例

基本的な使用法

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

高度な使用法

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

コマンドラインでの使用

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

🎮 デモスペース

XTTS Space : サポートされている言語でのモデルの動作を確認したり、独自の参照音声やマイク入力で試すことができます。
XTTS Voice Chat with Mistral or Zephyr : Mistral 7B Instruct または Zephyr 7B Beta とのストリーミング音声チャットを体験できます。