🚀 ⓍTTS
ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使用することで、さまざまな言語に音声をクローンすることができます。Tortoiseをベースに構築されており、ⓍTTSは重要なモデルの変更を加えることで、異言語間の音声クローンと多言語の音声生成を非常に簡単に行えるようにしています。何時間にもわたる大量のトレーニングデータは必要ありません。
このモデルは、Coqui Studio と Coqui API のバックエンドで使用されているものと同じです。ただし、高速化とストリーミング推論のサポートのためにいくつかの工夫を施しています。
🚀 クイックスタート
ⓍTTS V2モデルはこちら XTTS V2 で公開されています。
✨ 主な機能
- 14言語をサポートしています。
- わずか6秒の音声クリップで音声をクローンできます。
- クローンによる感情とスタイルの転送が可能です。
- 異言語間の音声クローンができます。
- 多言語の音声生成が可能です。
- 24kHzのサンプリングレートをサポートしています。
📚 ドキュメント
サポート言語
現在、XTTS-v1 (v1.1) は14言語をサポートしています。英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、トルコ語、ロシア語、オランダ語、チェコ語、アラビア語、中国語、日本語です。
今後もさらに多くの言語のサポートを追加していく予定です。もし特定の言語のサポートを希望する場合は、遠慮なくお問い合わせください!
コード
現在の実装では、推論と微調整がサポートされています。
📄 ライセンス
このモデルは Coqui Public Model License の下でライセンスされています。生成モデルのライセンスには多くの要素が含まれており、CPMLの起源についてはこちらで詳しく読むことができます。
お問い合わせ
🐸コミュニティに参加しましょう。私たちは Discord と Twitter で活発に活動しています。また、info@coqui.ai までメールでもお問い合わせいただけます。
💻 使用例
基本的な使用法
🐸TTS APIを使用する場合
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en",
decoder_iterations=30)
🐸TTSコマンドラインを使用する場合
tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
--text "Bugün okula gitmek istemiyorum." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx tr \
--use_cuda true
モデルを直接使用する場合
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="en",
)