Kokoro - 82Mオープンソーステキストトゥースピーチモデル - 軽量アーキテクチャで高音質、高速かつ低コスト！

ホーム

Kokoro 82M

hexgradによって開発

Kokoroは8200万のパラメータを持つオープンソースのテキスト読み上げ（TTS）モデルで、軽量なアーキテクチャと高音質で知られ、高速かつコスト効率が高いという特徴があります。

音声合成英語オープンソースライセンス:Apache-2.0 #軽量級TTS #多言語音色 #低コストでのデプロイ

ダウンロード数 2.0M

リリース時間 : 12/26/2024

モデル概要

KokoroはApacheライセンスに基づくテキスト読み上げモデルで、高品質の音声出力を生成でき、本番環境から個人プロジェクトまで様々なシナリオに適しています。

モデル特徴

軽量なアーキテクチャ

パラメータ規模が小さいにもかかわらず、大型モデルに匹敵する音質を提供します。

コスト効率が高い

100万文字のテキスト入力あたり1ドル未満、1時間の音声出力あたり0.06ドル未満です。

多言語対応

8言語と54種類の音色をサポートし、多様なアプリケーションシナリオに適しています。

オープンソースライセンス

Apacheライセンスを採用しており、商用および個人プロジェクトに自由にデプロイできます。

モデル能力

テキスト読み上げ

多言語音声合成

効率的な音声生成

使用事例

商用アプリケーション

音声アシスタント

商用アプリケーションに高品質の音声出力を提供します。

効率的で低コストの音声合成ソリューション。

オーディオブック

自然で流れるオーディオブックの内容を生成します。

高品質の多言語音声出力。

個人プロジェクト

個人用音声アシスタント

個人プロジェクトにカスタマイズされた音声出力を提供します。

軽量でデプロイが容易なソリューション。

🚀 こころ (Kokoro)

こころ (Kokoro) は、8200万のパラメータを持つオープンウェイトのテキスト・トゥ・スピーチ（TTS）モデルです。軽量なアーキテクチャでありながら、大規模なモデルと同等の品質を提供し、大幅に高速かつコスト効率が高いです。Apacheライセンスのウェイトを持つため、本番環境から個人プロジェクトまで、どこでも展開できます。

🐈 GitHub: https://github.com/hexgrad/kokoro

🚀 デモ: https://hf.co/spaces/hexgrad/Kokoro-TTS

🚀 クイックスタート

このモデルは、軽量な構造でありながら、大規模なモデルと同等の品質を提供します。以下のセクションでは、モデルの使用方法や詳細な情報を提供します。

✨ 主な機能

8200万のパラメータを持つ軽量なTTSモデル。
大規模なモデルと同等の音声品質を提供。
高速かつコスト効率が高い。
Apacheライセンスのウェイトで、自由に展開できる。

📦 インストール

以下のコマンドを使用して、必要なライブラリをインストールできます。

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

💻 使用例

基本的な使用法

from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

kokoro は内部的に、misaki というG2Pライブラリ（https://github.com/hexgrad/misaki）を使用しています。

📚 ドキュメント

リリース

モデル	公開日	学習データ	言語とボイス	SHA256
v1.0	2025年1月27日	数百時間	8 & 54	`496dba11`
v0.19	2024年12月25日	<100時間	1 & 10	`3b0c392f`

学習コスト	v0.19	v1.0	合計
A100 80GB GPU時間	500	500	1000
平均時給	$0.80/時間	$1.20/時間	$1/時間
米ドル換算	$400	$600	$1000

モデルの詳細

プロパティ	詳細
モデルタイプ	オープンウェイトのTTSモデル
学習データ	許容的/著作権のないオーディオデータとIPA音素ラベル

アーキテクチャ:

StyleTTS 2: https://arxiv.org/abs/2306.07691
ISTFTNet: https://arxiv.org/abs/2203.02395
デコーダのみ: 拡散モデルなし、エンコーダのリリースなし

アーキテクチャ設計者: Li et al @ https://github.com/yl4579/StyleTTS2

学習者: @rzvzn (Discord)

言語: 複数

モデルのSHA256ハッシュ: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

学習の詳細

データ: こころ (Kokoro) は、許容的/著作権のないオーディオデータとIPA音素ラベルのみを使用して学習されました。許容的/著作権のないオーディオの例としては、以下のようなものがあります。

パブリックドメインのオーディオ
Apache、MITなどのライセンスを持つオーディオ
大手プロバイダのクローズド^[2] TTSモデルによって生成された合成オーディオ^[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] オープンTTSモデルや「カスタムボイスクローン」からの合成オーディオは使用されていません。

総データセットサイズ: 数百時間のオーディオ

総学習コスト: A100 80GB vRAMで1000時間の学習に約$1000

クリエイティブ・コモンズの帰属表示

以下のCC BYオーディオは、こころ (Kokoro) v1.0の学習に使用されたデータセットの一部です。

オーディオデータ	使用時間	ライセンス	学習セットに追加された日
Koniwa `tnc`	<1時間	CC BY 3.0	v0.19 / 2024年11月22日
SIWIS	<11時間	CC BY 4.0	v0.19 / 2024年11月22日

謝辞

🛠️ @yl4579 には、StyleTTS 2のアーキテクチャ設計に感謝します。
🏆 @Pendrokar には、こころ (Kokoro) をTTS Spaces Arenaの候補として追加してくれたことに感謝します。
📊 合成学習データを提供してくれた皆様に感謝します。
❤️ すべてのコンピューティングスポンサーに特別な感謝を申し上げます。
👾 Discordサーバー: https://discord.gg/QuGxSWBfQy
🪽 こころ (Kokoro) は、日本語で「心」または「精神」を意味する言葉です。また、ターミネーターフランチャイズのAI の名前でもあります。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

⚠️ 重要注意

2025年4月現在、API経由で提供されるこころ (Kokoro) の市場価格は、100万文字のテキスト入力あたり$1未満、または1時間の音声出力あたり$0.06未満です。（平均して、1000文字の入力は約1分の出力に相当します。）情報源: ArtificialAnalysis/Replicate at 65 cents per M chars および DeepInfra at 80 cents per M chars。

これはApacheライセンスのモデルであり、こころ (Kokoro) は多数のプロジェクトや商用APIで展開されています。実際のユースケースでのモデルの展開を歓迎します。

⚠️ 注意事項

kokorottsai_com（スナップショット: https://archive.ph/nRRnk）やkokorotts_net（スナップショット: https://archive.ph/60opa）などの偽のウェブサイトは、人気のあるモデルの名前を騙っている詐欺サイトの可能性があります。

ルートドメインに「kokoro」を含むウェブサイト（例: kokorottsai_com、kokorotts_net）は、このモデルページまたはその作者によって所有されておらず、関連付けられていません。それ以外を暗示する試みは危険信号です。