🚀 こころ (Kokoro)
こころ (Kokoro) は、8200万のパラメータを持つオープンウェイトのテキスト・トゥ・スピーチ(TTS)モデルです。軽量なアーキテクチャでありながら、大規模なモデルと同等の品質を提供し、大幅に高速かつコスト効率が高いです。Apacheライセンスのウェイトを持つため、本番環境から個人プロジェクトまで、どこでも展開できます。
🐈 GitHub : https://github.com/hexgrad/kokoro
🚀 デモ : https://hf.co/spaces/hexgrad/Kokoro-TTS
🚀 クイックスタート
このモデルは、軽量な構造でありながら、大規模なモデルと同等の品質を提供します。以下のセクションでは、モデルの使用方法や詳細な情報を提供します。
✨ 主な機能
8200万のパラメータを持つ軽量なTTSモデル。
大規模なモデルと同等の音声品質を提供。
高速かつコスト効率が高い。
Apacheライセンスのウェイトで、自由に展開できる。
📦 インストール
以下のコマンドを使用して、必要なライブラリをインストールできます。
!pip install -q kokoro>=0.9 .2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2 >&1
💻 使用例
基本的な使用法
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a' )
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart' )
for i, (gs, ps, audio) in enumerate (generator):
print (i, gs, ps)
display(Audio(data=audio, rate=24000 , autoplay=i==0 ))
sf.write(f'{i} .wav' , audio, 24000 )
kokoro
は内部的に、misaki
というG2Pライブラリ(https://github.com/hexgrad/misaki)を使用しています。
📚 ドキュメント
リリース
モデル
公開日
学習データ
言語とボイス
SHA256
v1.0
2025年1月27日
数百時間
8 & 54
496dba11
v0.19
2024年12月25日
<100時間
1 & 10
3b0c392f
学習コスト
v0.19
v1.0
合計
A100 80GB GPU時間
500
500
1000
平均時給
$0.80/時間
$1.20/時間
$1/時間
米ドル換算
$400
$600
$1000
モデルの詳細
プロパティ
詳細
モデルタイプ
オープンウェイトのTTSモデル
学習データ
許容的/著作権のないオーディオデータとIPA音素ラベル
アーキテクチャ:
StyleTTS 2: https://arxiv.org/abs/2306.07691
ISTFTNet: https://arxiv.org/abs/2203.02395
デコーダのみ: 拡散モデルなし、エンコーダのリリースなし
アーキテクチャ設計者: Li et al @ https://github.com/yl4579/StyleTTS2
学習者 : @rzvzn
(Discord)
言語: 複数
モデルのSHA256ハッシュ: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
学習の詳細
データ: こころ (Kokoro) は、許容的/著作権のないオーディオデータ とIPA音素ラベルのみを使用して学習されました。許容的/著作権のないオーディオの例としては、以下のようなものがあります。
パブリックドメインのオーディオ
Apache、MITなどのライセンスを持つオーディオ
大手プロバイダのクローズド[2] TTSモデルによって生成された合成オーディオ[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] オープンTTSモデルや「カスタムボイスクローン」からの合成オーディオは使用されていません。
総データセットサイズ: 数百時間のオーディオ
総学習コスト: A100 80GB vRAMで1000時間の学習に約$1000
クリエイティブ・コモンズの帰属表示
以下のCC BYオーディオは、こころ (Kokoro) v1.0の学習に使用されたデータセットの一部です。
謝辞
🛠️ @yl4579 には、StyleTTS 2のアーキテクチャ設計に感謝します。
🏆 @Pendrokar には、こころ (Kokoro) をTTS Spaces Arenaの候補として追加してくれたことに感謝します。
📊 合成学習データを提供してくれた皆様に感謝します。
❤️ すべてのコンピューティングスポンサーに特別な感謝を申し上げます。
👾 Discordサーバー: https://discord.gg/QuGxSWBfQy
🪽 こころ (Kokoro) は、日本語で「心」または「精神」を意味する言葉です。また、ターミネーターフランチャイズのAI の名前でもあります。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
⚠️ 重要注意
2025年4月現在、API経由で提供されるこころ (Kokoro) の市場価格は、100万文字のテキスト入力あたり$1未満 、または1時間の音声出力あたり$0.06未満です。(平均して、1000文字の入力は約1分の出力に相当します。)情報源: ArtificialAnalysis/Replicate at 65 cents per M chars および DeepInfra at 80 cents per M chars 。
これはApacheライセンスのモデルであり、こころ (Kokoro) は多数のプロジェクトや商用APIで展開されています。実際のユースケースでのモデルの展開を歓迎します。
⚠️ 注意事項
kokorottsai_com(スナップショット: https://archive.ph/nRRnk)やkokorotts_net(スナップショット: https://archive.ph/60opa)などの偽のウェブサイトは、人気のあるモデルの名前を騙っている詐欺サイトの可能性があります。
ルートドメインに「kokoro」を含むウェブサイト(例: kokorottsai_com、kokorotts_net)は、このモデルページまたはその作者によって所有されておらず、関連付けられていません 。それ以外を暗示する試みは危険信号です。