🚀 ⓍTTS
ⓍTTSは音声生成モデルで、わずか6秒の音声クリップを使用することで、音声を異なる言語にクローンすることができます。何時間にもわたる大量のトレーニングデータは必要ありません。
このモデルは、Coqui Studio や Coqui API で使用されているモデルと同じ、または類似したものです。
🚀 クイックスタート
ⓍTTSは、短い音声クリップを使って音声をクローンすることができる音声生成モデルです。以下に、このモデルを使用するための基本的な手順を示します。
✨ 主な機能
- 16の言語をサポートします。
- わずか6秒の音声クリップで音声クローンが可能です。
- クローンによる感情とスタイルの転送ができます。
- 異言語間の音声クローンが可能です。
- 多言語の音声生成ができます。
- サンプリングレートは24kHzです。
🆕 XTTS-v1からの更新点
- ハンガリー語と韓国語の2つの新しい言語が追加されました。
- 話者コンディショニングのためのアーキテクチャが改善されました。
- 複数の話者参照の使用と話者間の補間が可能になりました。
- 安定性が向上しました。
- 全体的に韻律と音声品質が改善されました。
🌐 サポート言語
XTTS-v2は16の言語をサポートしています。英語 (en)、スペイン語 (es)、フランス語 (fr)、ドイツ語 (de)、イタリア語 (it)、ポルトガル語 (pt)、ポーランド語 (pl)、トルコ語 (tr)、ロシア語 (ru)、オランダ語 (nl)、チェコ語 (cs)、アラビア語 (ar)、中国語 (zh-cn)、日本語 (ja)、ハンガリー語 (hu)、韓国語 (ko)
今後もさらに多くの言語のサポートを追加していく予定です。特定の言語のサポートを希望する場合は、お気軽にお問い合わせください!
💻 使用例
基本的な使用法
🐸TTS APIを使用する場合
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en",
decoder_iterations=30)
🐸TTSコマンドラインを使用する場合
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
--text "Bugün okula gitmek istemiyorum." \
--speaker_wav /path/to/target/speaker.wav \
--language_idx tr \
--use_cuda true
モデルを直接使用する場合
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="en",
)
📚 詳細ドキュメント
📄 ライセンス
このモデルは Coqui Public Model License の下でライセンスされています。生成モデルのライセンスには多くの要素が含まれており、CPMLの由来についてはこちら で詳しく読むことができます。
📞 お問い合わせ
🐸コミュニティにぜひ参加してください。Discord と Twitter で活動しています。また、info@coqui.ai までメールを送ることもできます。