🚀 クイックスタート
🐈 GitHub: https://github.com/hexgrad/kokoro
Kokoro は、小型ですが強力なオープンウェイトのTTSモデルシリーズです。
このモデルは短期間のトレーニングの成果で、専門のデータセットから100人の中国語話者のデータを追加しています。中国語データは、専門のデータセット会社である LongMaoData から無料で許可を得て使用しています。このモデルを実現してくれた LongMaoData に感謝いたします。
また、一部の众包合成英語データもトレーニングに使用されています[1]:
- アメリカ人女性のMapleの1時間分のデータ。
- もう1人のアメリカ人女性のSolの1時間分のデータ。
- 英国の年配女性のValeの1時間分のデータ。
このモデルは多くの音声を削除しているため、前作に対する厳密なアップグレードではありませんが、新しい音声とトークン化に関するフィードバックを収集するために早期にリリースされています。中国語データセットと3時間分の英語データを除いて、残りのデータは今回のトレーニングでは使用されていません。目標は、このモデルシリーズを進化させ、最終的に削除された音声の一部を復活させることです。
米国著作権局の現行のガイダンスによると、合成データは一般的に著作権保護の対象にはなりません。この合成データは众包されているため、モデルトレーナーはサービス利用規約の制約を受けません。このApacheライセンスのモデルは、OpenAIが宣言するAIの恩恵を広く普及させる使命にも沿っています。もしあなたがその使命を支援したい場合は、許可された音声データの提供を検討してください。
[1] LongMaoDataは众包合成英語データには関与していません。
[2] 以下の中国語テキストは機械翻訳されたものです。
Kokoroは、小型ですが強力なTTSモデルシリーズです。
このモデルは短期間のトレーニングの成果で、専門のデータセットから100人の中国語話者のデータを追加しています。中国語データは、専門のデータセット会社である「龙猫数据」から無料で許可を得て使用しています。このモデルを実現してくれた「龙猫数据」に感謝いたします。
また、一部の众包合成英語データもトレーニングに使用されています。
- アメリカ人女性のMapleの1時間分のデータ。
- もう1人のアメリカ人女性のSolの1時間分のデータ。
- 英国の年配女性のValeの1時間分のデータ。
このモデルは多くの音声を削除しているため、前作に対する厳密なアップグレードではありませんが、新しい音声とトークン化に関するフィードバックを収集するために早期にリリースされています。中国語データセットと3時間分の英語データを除いて、残りのデータは今回のトレーニングでは使用されていません。目標は、このモデルシリーズを進化させ、最終的に削除された音声の一部を復活させることです。
米国著作権局の現行のガイダンスによると、合成データは一般的に著作権保護の対象にはなりません。この合成データは众包されているため、モデルトレーナーはサービス利用規約の制約を受けません。このApacheライセンスのモデルは、OpenAIが宣言するAIの恩恵を広く普及させる使命にも沿っています。もしあなたがその使命を支援したい場合は、許可された音声データの提供を検討してください。
✨ 主な機能
Kokoroは、小型で強力なTTSモデルシリーズで、中国語と英語の音声合成に対応しています。新しい音声とトークン化の機能を備え、ユーザーからのフィードバックを収集することでさらなる改善を目指しています。
📦 インストール
このセルは Google Colab で実行できます。
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
TODO: 使用方法を改善する。https://hf.co/hexgrad/Kokoro-82M#usage と同様ですが、KModel
または KPipeline
を構築する際に repo_id='hexgrad/Kokoro-82M-v1.1-zh'
を渡す必要があります。make_en.py
と make_zh.py
を参照してください。
💻 使用例
基本的な使用法
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
📚 ドキュメント
リリース情報
モデル |
公開日 |
トレーニングデータ |
言語と音声数 |
SHA256 |
v1.1-zh |
2025年2月26日 |
>100時間 |
2と103 |
b1d8410f |
v1.0 |
2025年1月27日 |
数百時間 |
8と54 |
496dba11 |
v0.19 |
2024年12月25日 |
<100時間 |
1と10 |
3b0c392f |
トレーニングコスト |
v0.19 |
v1.0 |
v1.1-zh |
合計 |
A100 80GB GPU時間 |
500 |
500 |
120 |
1120 |
平均時給 |
$0.80/時間 |
$1.20/時間 |
$0.90/時間 |
|
米ドル換算 |
$400 |
$600 |
$110 |
$1110 |
モデル情報
属性 |
詳情 |
モデルアーキテクチャ |
- StyleTTS 2: https://arxiv.org/abs/2306.07691 - ISTFTNet: https://arxiv.org/abs/2203.02395 - デコーダーのみ: 拡散モデルなし、エンコーダー未公開 - 8200万のパラメーター、https://hf.co/hexgrad/Kokoro-82M と同じ |
アーキテクチャ設計者 |
Li et al @ https://github.com/yl4579/StyleTTS2 |
トレーナー |
@rzvzn (Discord) |
対応言語 |
英語、中国語 |
モデルのSHA256ハッシュ |
b1d8410fa44dfb5c15471fd6c4225ea6b4e9ac7fa03c98e8bea47a9928476e2b |
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で公開されています。
🔧 技術詳細
このモデルは、StyleTTS 2とISTFTNetのアーキテクチャを使用しています。StyleTTS 2は、音声合成のためのスタイル制御可能なモデルで、ISTFTNetは高速かつ高品質な音声合成を実現するためのネットワークです。モデルはデコーダーのみで構成されており、拡散モデルやエンコーダーは使用されていません。トレーニングには、中国語と英語のデータが使用されており、一部の众包合成英語データも含まれています。
📄 謝辞
TODO: 謝辞を記載する。https://hf.co/hexgrad/Kokoro-82M#acknowledgements と同様の内容を記載してください。
