XTTS-v1オープンソース音声生成モデル - 無料でデプロイ可能、6秒で声をクローン、多言語アプリケーションに対応

ホーム

XTTS V1

coquiによって開発

ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。

音声合成オープンソースライセンス:その他 #クロスランゲージ音声クローン #6秒クイッククローン #マルチランゲージ合成

ダウンロード数 5,449

リリース時間 : 9/13/2023

モデル概要

Tortoiseアーキテクチャを基にしたクロスランゲージ音声クローンと生成モデルで、14言語をサポートし、感情とスタイルの転送が可能です。

モデル特徴

高速音声クローン

わずか6秒の音声でターゲットの声の特徴をクローン可能

クロスランゲージサポート

14言語の音声生成とクロスランゲージクローンをサポート

感情転送

元の音声の感情とスタイル特徴を保持可能

高品質出力

24kHzサンプリングレートで自然な音声を生成

モデル能力

テキスト読み上げ

音声クローン

クロスランゲージ音声生成

感情スタイル転送

使用事例

コンテンツ制作

マルチランゲージ音声コンテンツ生成

動画、ポッドキャストなどのコンテンツ向けに迅速に多言語音声を生成

統一された声の特徴を維持しながら複数言語出力をサポート

支援技術

音声支援ツール

言語障害者向けに個別化された音声出力を作成

少量のサンプルでユーザーの元の声の特徴を再現可能

🚀 ⓍTTS

ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使用することで、さまざまな言語に音声をクローンすることができます。Tortoiseをベースに構築されており、ⓍTTSは重要なモデルの変更を加えることで、異言語間の音声クローンと多言語の音声生成を非常に簡単に行えるようにしています。何時間にもわたる大量のトレーニングデータは必要ありません。

このモデルは、Coqui Studio と Coqui API のバックエンドで使用されているものと同じです。ただし、高速化とストリーミング推論のサポートのためにいくつかの工夫を施しています。

🚀 クイックスタート

ⓍTTS V2モデルはこちら XTTS V2 で公開されています。

✨ 主な機能

14言語をサポートしています。
わずか6秒の音声クリップで音声をクローンできます。
クローンによる感情とスタイルの転送が可能です。
異言語間の音声クローンができます。
多言語の音声生成が可能です。
24kHzのサンプリングレートをサポートしています。

📚 ドキュメント

サポート言語

現在、XTTS-v1 (v1.1) は14言語をサポートしています。英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、トルコ語、ロシア語、オランダ語、チェコ語、アラビア語、中国語、日本語です。

今後もさらに多くの言語のサポートを追加していく予定です。もし特定の言語のサポートを希望する場合は、遠慮なくお問い合わせください！

コード

現在の実装では、推論と微調整がサポートされています。

📄 ライセンス

このモデルは Coqui Public Model License の下でライセンスされています。生成モデルのライセンスには多くの要素が含まれており、CPMLの起源についてはこちらで詳しく読むことができます。

お問い合わせ

🐸コミュニティに参加しましょう。私たちは Discord と Twitter で活発に活動しています。また、info@coqui.ai までメールでもお問い合わせいただけます。

💻 使用例

基本的な使用法

🐸TTS APIを使用する場合

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

🐸TTSコマンドラインを使用する場合

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

モデルを直接使用する場合

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)