ココロ - 82M - v1.1 - 中文オープンソーステキスト読み上げモデル

ホーム

Kokoro 82M V1.1 Zh

hexgradによって開発

Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ（TTS）モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。

音声合成オープンソースライセンス:Apache-2.0 #軽量級TTS #マルチスピーカー対応 #中英バイリンガル合成

ダウンロード数 51.56k

リリース時間 : 2/27/2025

モデル概要

Kokoroは英語と中国語をサポートするテキスト読み上げ（TTS）モデルシリーズで、小型ながら強力な特徴を持っています。

モデル特徴

多言語サポート

英語と中国語をサポートし、100名の中国語話者データを追加しました。

小型ながら強力

モデルはわずか8200万パラメータですが、性能は強力です。

オープンウェイト

モデルはApacheライセンスを採用し、オープンウェイトで広範な使用と改変が容易です。

専門データセット

中国語データは専門データセット会社「龍猫データ」が無料提供しており、品質が保証されています。

モデル能力

テキスト読み上げ

多言語音声合成

複数話者音声対応

使用事例

音声合成

中国語音声合成

専門データセットの100名の中国語話者を使用した音声合成。

自然で流暢な中国語音声を生成します。

英語音声合成

様々な英語アクセントと話者音声をサポート。

自然で流暢な英語音声を生成します。

🚀 クイックスタート

🐈 GitHub: https://github.com/hexgrad/kokoro

Kokoro は、小型ですが強力なオープンウェイトのTTSモデルシリーズです。

このモデルは短期間のトレーニングの成果で、専門のデータセットから100人の中国語話者のデータを追加しています。中国語データは、専門のデータセット会社である LongMaoData から無料で許可を得て使用しています。このモデルを実現してくれた LongMaoData に感謝いたします。

また、一部の众包合成英語データもトレーニングに使用されています^[1]：

アメリカ人女性のMapleの1時間分のデータ。
もう1人のアメリカ人女性のSolの1時間分のデータ。
英国の年配女性のValeの1時間分のデータ。

このモデルは多くの音声を削除しているため、前作に対する厳密なアップグレードではありませんが、新しい音声とトークン化に関するフィードバックを収集するために早期にリリースされています。中国語データセットと3時間分の英語データを除いて、残りのデータは今回のトレーニングでは使用されていません。目標は、このモデルシリーズを進化させ、最終的に削除された音声の一部を復活させることです。

米国著作権局の現行のガイダンスによると、合成データは一般的に著作権保護の対象にはなりません。この合成データは众包されているため、モデルトレーナーはサービス利用規約の制約を受けません。このApacheライセンスのモデルは、OpenAIが宣言するAIの恩恵を広く普及させる使命にも沿っています。もしあなたがその使命を支援したい場合は、許可された音声データの提供を検討してください。

^{[1] LongMaoDataは众包合成英語データには関与していません。}
^{[2] 以下の中国語テキストは機械翻訳されたものです。}

Kokoroは、小型ですが強力なTTSモデルシリーズです。

このモデルは短期間のトレーニングの成果で、専門のデータセットから100人の中国語話者のデータを追加しています。中国語データは、専門のデータセット会社である「龙猫数据」から無料で許可を得て使用しています。このモデルを実現してくれた「龙猫数据」に感謝いたします。

また、一部の众包合成英語データもトレーニングに使用されています。

アメリカ人女性のMapleの1時間分のデータ。

もう1人のアメリカ人女性のSolの1時間分のデータ。

英国の年配女性のValeの1時間分のデータ。

このモデルは多くの音声を削除しているため、前作に対する厳密なアップグレードではありませんが、新しい音声とトークン化に関するフィードバックを収集するために早期にリリースされています。中国語データセットと3時間分の英語データを除いて、残りのデータは今回のトレーニングでは使用されていません。目標は、このモデルシリーズを進化させ、最終的に削除された音声の一部を復活させることです。

米国著作権局の現行のガイダンスによると、合成データは一般的に著作権保護の対象にはなりません。この合成データは众包されているため、モデルトレーナーはサービス利用規約の制約を受けません。このApacheライセンスのモデルは、OpenAIが宣言するAIの恩恵を広く普及させる使命にも沿っています。もしあなたがその使命を支援したい場合は、許可された音声データの提供を検討してください。

リリース情報
使用方法
サンプル ↗️
モデル情報
謝辞

✨ 主な機能

Kokoroは、小型で強力なTTSモデルシリーズで、中国語と英語の音声合成に対応しています。新しい音声とトークン化の機能を備え、ユーザーからのフィードバックを収集することでさらなる改善を目指しています。

📦 インストール

このセルは Google Colab で実行できます。

!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))

TODO: 使用方法を改善する。https://hf.co/hexgrad/Kokoro-82M#usage と同様ですが、KModel または KPipeline を構築する際に repo_id='hexgrad/Kokoro-82M-v1.1-zh' を渡す必要があります。make_en.py と make_zh.py を参照してください。

💻 使用例

基本的な使用法

!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))

📚 ドキュメント

リリース情報

モデル	公開日	トレーニングデータ	言語と音声数	SHA256
v1.1-zh	2025年2月26日	>100時間	2と103	`b1d8410f`
v1.0	2025年1月27日	数百時間	8と54	`496dba11`
v0.19	2024年12月25日	<100時間	1と10	`3b0c392f`

トレーニングコスト	v0.19	v1.0	v1.1-zh	合計
A100 80GB GPU時間	500	500	120	1120
平均時給	$0.80/時間	$1.20/時間	$0.90/時間
米ドル換算	$400	$600	$110	$1110

モデル情報

属性	詳情
モデルアーキテクチャ	- StyleTTS 2: https://arxiv.org/abs/2306.07691 - ISTFTNet: https://arxiv.org/abs/2203.02395 - デコーダーのみ: 拡散モデルなし、エンコーダー未公開 - 8200万のパラメーター、https://hf.co/hexgrad/Kokoro-82M と同じ
アーキテクチャ設計者	Li et al @ https://github.com/yl4579/StyleTTS2
トレーナー	`@rzvzn` (Discord)
対応言語	英語、中国語
モデルのSHA256ハッシュ	`b1d8410fa44dfb5c15471fd6c4225ea6b4e9ac7fa03c98e8bea47a9928476e2b`

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で公開されています。

🔧 技術詳細

このモデルは、StyleTTS 2とISTFTNetのアーキテクチャを使用しています。StyleTTS 2は、音声合成のためのスタイル制御可能なモデルで、ISTFTNetは高速かつ高品質な音声合成を実現するためのネットワークです。モデルはデコーダーのみで構成されており、拡散モデルやエンコーダーは使用されていません。トレーニングには、中国語と英語のデータが使用されており、一部の众包合成英語データも含まれています。