Kokoro 82M
Kokoroは8200万パラメータのオープンソースTTSモデルで、音質はより大規模なモデルに匹敵しつつ、顕著な速度優位性とコスト効率を備えています。
ダウンロード数 376
リリース時間 : 2/26/2025
モデル概要
Kokoroは軽量なテキスト読み上げモデルで、StyleTTS2アーキテクチャを基にし、複数の言語と音色をサポートし、本番環境や個人プロジェクトに適しています。
モデル特徴
軽量で効率的
8200万パラメータの軽量アーキテクチャで、高品質な音質を維持しつつ高速な推論能力を備えています
多言語サポート
8言語と54音色をサポートし、多様なニーズに対応
オープンソースライセンス
Apache-2.0ライセンスを採用し、商用・個人プロジェクトで自由に利用可能
低コストトレーニング
A100 GPUを使用してわずか1000ドルのトレーニングコストで完了
モデル能力
高品質音声合成
多言語音声生成
音色切り替え
話速調整
使用事例
コンテンツ制作
オーディオブック生成
テキストコンテンツを自然な音声に変換
高品質で表現力豊かな音声を生成
動画吹き替え
動画コンテンツに多言語の音声を追加
複数言語と音色をサポートした音声出力
支援技術
音声支援アプリケーション
視覚障害ユーザー向けにテキスト読み上げ機能を提供
クリアで自然な音声出力を生成
🚀 Kokoro
Kokoroは、8200万のパラメータを持つオープンウェイトのテキスト・トゥ・スピーチ(TTS)モデルです。軽量なアーキテクチャでありながら、大規模なモデルと同等の品質を提供し、大幅に高速でコスト効率が高いです。Apacheライセンスのウェイトを持つため、本番環境から個人プロジェクトまで、あらゆる場所で展開できます。
⬆️ Kokoroはv1.0にアップグレードされました! リリースを参照してください。
✨ 現在、pip install kokoro
が可能です! 使用方法を参照してください。
🚀 クイックスタート
Kokoroを使い始めるには、まずpip
を使ってインストールします。
pip install kokoro
その後、以下のコード例を参考にして、音声合成を行うことができます。
✨ 主な機能
- 軽量なアーキテクチャで、大規模モデルと同等の品質を提供。
- 高速でコスト効率が高い。
- Apacheライセンスのウェイトで、あらゆる場所での展開が可能。
- 複数の言語とボイスをサポート。
📦 インストール
pip
を使ってKokoroをインストールできます。
pip install kokoro
💻 使用例
基本的な使用法
# 1️⃣ Install kokoro
!pip install -q kokoro>=0.3.4 soundfile
# 2️⃣ Install espeak, used for English OOD fallback and some non-English languages
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
# 🇪🇸 'e' => Spanish es
# 🇫🇷 'f' => French fr-fr
# 🇮🇳 'h' => Hindi hi
# 🇮🇹 'i' => Italian it
# 🇧🇷 'p' => Brazilian Portuguese pt-br
# 3️⃣ Initalize a pipeline
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
# 🇺🇸 'a' => American English, 🇬🇧 'b' => British English
# 🇯🇵 'j' => Japanese: pip install misaki[ja]
# 🇨🇳 'z' => Mandarin Chinese: pip install misaki[zh]
pipeline = KPipeline(lang_code='a') # <= make sure lang_code matches voice
# This text is for demonstration purposes only, unseen during training
text = '''
The sky above the port was the color of television, tuned to a dead channel.
"It's not like I'm using," Case heard someone say, as he shouldered his way through the crowd around the door of the Chat. "It's like my body's developed this massive drug deficiency."
It was a Sprawl voice and a Sprawl joke. The Chatsubo was a bar for professional expatriates; you could drink there for a week and never hear two words in Japanese.
These were to have an enormous impact, not only because they were associated with Constantine, but also because, as in so many other areas, the decisions taken by Constantine (or in his name) were to have great significance for centuries to come. One of the main issues was the shape that Christian churches were to take, since there was not, apparently, a tradition of monumental church buildings when Constantine decided to help the Christian church build a series of truly spectacular structures. The main form that these churches took was that of the basilica, a multipurpose rectangular structure, based ultimately on the earlier Greek stoa, which could be found in most of the great cities of the empire. Christianity, unlike classical polytheism, needed a large interior space for the celebration of its religious services, and the basilica aptly filled that need. We naturally do not know the degree to which the emperor was involved in the design of new churches, but it is tempting to connect this with the secular basilica that Constantine completed in the Roman forum (the so-called Basilica of Maxentius) and the one he probably built in Trier, in connection with his residence in the city at a time when he was still caesar.
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
# text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'
# text = '中國人民不信邪也不怕邪,不惹事也不怕事,任何外國不要指望我們會拿自己的核心利益做交易,不要指望我們會吞下損害我國主權、安全、發展利益的苦果!'
# text = 'Los partidos políticos tradicionales compiten con los populismos y los movimientos asamblearios.'
# text = 'Le dromadaire resplendissant déambulait tranquillement dans les méandres en mastiquant de petites feuilles vernissées.'
# text = 'ट्रांसपोर्टरों की हड़ताल लगातार पांचवें दिन जारी, दिसंबर से इलेक्ट्रॉनिक टोल कलेक्शनल सिस्टम'
# text = "Allora cominciava l'insonnia, o un dormiveglia peggiore dell'insonnia, che talvolta assumeva i caratteri dell'incubo."
# text = 'Elabora relatórios de acompanhamento cronológico para as diferentes unidades do Departamento que propõem contratos.'
# 4️⃣ Generate, display, and save audio files in a loop.
generator = pipeline(
text, voice='af_heart', # <= change voice here
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # i => index
print(gs) # gs => graphemes/text
print(ps) # ps => phonemes
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) # save each audio file
高度な使用法
# 高度なシナリオでは、ボイスや速度、分割パターンなどのパラメータを調整することができます。
# 例えば、異なるボイスや速度を指定して音声合成を行うことができます。
generator = pipeline(
text, voice='different_voice', # 異なるボイスを指定
speed=1.5, split_pattern=r'\.\s+' # 異なる分割パターンを指定
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # i => index
print(gs) # gs => graphemes/text
print(ps) # ps => phonemes
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) # save each audio file
📚 ドキュメント
リリース
モデル | 公開日 | 学習データ | 言語とボイス | SHA256 |
---|---|---|---|---|
v0.19 | 2024年12月25日 | <100時間 | 1言語と10ボイス | 3b0c392f |
v1.0 | 2025年1月27日 | 数百時間 | 8言語と54ボイス | 496dba11 |
学習コスト | v0.19 | v1.0 | 合計 |
---|---|---|---|
A100 80GB GPU時間 | 500時間 | 500時間 | 1000時間 |
平均時給 | $0.80/時間 | $1.20/時間 | $1/時間 |
米ドルでの合計 | $400 | $600 | $1000 |
モデル情報
属性 | 詳情 |
---|---|
モデルタイプ | StyleTTS 2: https://arxiv.org/abs/2306.07691 ISTFTNet: https://arxiv.org/abs/2203.02395 デコーダのみ: 拡散なし、エンコーダなし |
アーキテクチャ設計者 | Li et al @ https://github.com/yl4579/StyleTTS2 |
学習者 | @rzvzn on Discord |
サポート言語 | アメリカ英語、イギリス英語、フランス語、ヒンディー語 |
モデルSHA256ハッシュ | 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4 |
学習詳細
- データ: Kokoroは、許諾可能/著作権のない音声データとIPA音素ラベルのみを使って学習されました。許諾可能/著作権のない音声の例としては、以下のようなものがあります。
- パブリックドメインの音声
- Apache、MITなどのライセンスの音声
- 大規模プロバイダのクローズドTTSモデルによって生成された合成音声[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] オープンTTSモデルや「カスタムボイスクローン」からの合成音声は使用されていません。
- 総データセットサイズ: 数百時間の音声
- 総学習コスト: A100 80GB vRAMで1000時間の学習に約$1000
クリエイティブ・コモンズ帰属表示
以下のCC BY音声は、Kokoro v1.0の学習に使用されたデータセットの一部です。
音声データ | 使用時間 | ライセンス | 学習セットに追加された日 |
---|---|---|---|
Koniwa tnc |
<1時間 | CC BY 3.0 | v0.19 / 2024年11月22日 |
SIWIS | <11時間 | CC BY 4.0 | v0.19 / 2024年11月22日 |
謝辞
- 🛠️ @yl4579には、StyleTTS 2のアーキテクチャ設計に感謝します。
- 🏆 @Pendrokarには、KokoroをTTS Spaces Arenaの候補として追加してくれたことに感謝します。
- 📊 合成学習データを提供してくれた皆さんに感謝します。
- ❤️ すべてのコンピューティングスポンサーに特別な感謝を送ります。
- 👾 Discordサーバー: https://discord.gg/QuGxSWBfQy
- 🪽 Kokoroは、日本語で「心」または「精神」を意味する言葉です。また、ターミネーターフランチャイズのAIの名前でもあります。

📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
Kokoro 82M
Apache-2.0
Kokoroは8200万のパラメータを持つオープンソースのテキスト読み上げ(TTS)モデルで、軽量なアーキテクチャと高音質で知られ、高速かつコスト効率が高いという特徴があります。
音声合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
その他
ⓍTTSは革新的な音声生成モデルで、わずか6秒の音声サンプルでクロスランゲージ音声クローンを実現し、17言語をサポートします。
音声合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTSはストリームマッチングに基づく音声合成モデルで、流暢かつ忠実な音声合成に特化しており、特に童話の朗読などのシナリオに適しています。
音声合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトログラムから高品質なオーディオ波形を生成できます。
音声合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
LibriTTSデータセットでファインチューニングされたSpeechT5音声合成(テキスト読み上げ)モデルで、高品質なテキスト読み上げ変換をサポートします。
音声合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
音声合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSMはSesameが開発した10億パラメータ規模の音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能
音声合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ(TTS)モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。
音声合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS は Parler-TTS Mini の多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。
音声合成
Transformers 複数言語対応

I
ai4bharat
43.59k
124
Bark
MIT
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、シンプルな音響効果を生成できます。
音声合成
Transformers 複数言語対応

B
suno
35.72k
1,326
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98