Kokoro-82M開源文本轉語音模型 - 輕量架構高音質，快速且成本低！

首頁

Kokoro 82M

由hexgrad開發

Kokoro是一款擁有8200萬參數的開源文本轉語音（TTS）模型，以其輕量級架構和高音質著稱，同時具備快速和成本效益高的特點。

語音合成英語開源協議:Apache-2.0 #輕量級TTS #多語言音色 #低成本部署

下載量 2.0M

發布時間 : 12/26/2024

模型概述

Kokoro是一款基於Apache許可的文本轉語音模型，能夠生成高質量的語音輸出，適用於從生產環境到個人項目的各種場景。

模型特點

輕量級架構

儘管參數規模較小，但能提供與大型模型相媲美的音質。

高效成本

每百萬字符文本輸入低於1美元，每小時音頻輸出低於0.06美元。

多語言支持

支持8種語言和54種音色，適用於多樣化的應用場景。

開源許可

採用Apache許可，允許自由部署於商業和個人項目。

模型能力

文本轉語音

多語言語音合成

高效音頻生成

使用案例

商業應用

語音助手

為商業應用提供高質量的語音輸出。

高效且成本低廉的語音合成方案。

有聲讀物

生成自然流暢的有聲讀物內容。

高質量的多語言語音輸出。

個人項目

個人語音助手

為個人項目提供定製化的語音輸出。

輕量級且易於部署的解決方案。

🚀 Kokoro - 輕量級高效文本轉語音模型

Kokoro是一個擁有8200萬參數的開源權重文本轉語音（TTS）模型。儘管架構輕量，但它能提供與大型模型相媲美的語音質量，同時速度更快、成本更低。其權重採用Apache許可證，可廣泛應用於生產環境和個人項目。

🐈 GitHub：https://github.com/hexgrad/kokoro

🚀 演示地址：https://hf.co/spaces/hexgrad/Kokoro-TTS

🚀 快速開始

你可以在 Google Colab 上運行以下基礎代碼。點擊聆聽示例語音。如需瞭解更多語言和詳細信息，請查看高級用法。

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

在底層，kokoro 使用了 misaki 這個G2P庫，其代碼位於 https://github.com/hexgrad/misaki

✨ 主要特性

輕量高效：僅8200萬參數，卻能提供與大型模型相媲美的語音質量，且速度更快、成本更低。
開源許可：採用Apache許可證，可自由用於生產環境和個人項目。
多語言支持：支持多種語言和豐富的語音。

📦 安裝指南

在 Google Colab 上運行以下命令進行安裝：

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

💻 使用示例

基礎用法

# 你可以在 [Google Colab](https://colab.research.google.com/) 上運行這個基礎代碼塊。[聆聽示例語音](https://huggingface.co/hexgrad/Kokoro-82M/blob/main/SAMPLES.md)。
# 更多語言和詳細信息請參考 [高級用法](https://github.com/hexgrad/kokoro?tab=readme-ov-file#advanced-usage)。
!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

高級用法

如需瞭解更多語言和詳細信息，請查看高級用法。

📚 詳細文檔

版本發佈

模型	發佈時間	訓練數據	語言和語音數量	SHA256哈希值
v1.0	2025年1月27日	數百小時	8種語言和54種語音	`496dba11`
v0.19	2024年12月25日	<100小時	1種語言和10種語音	`3b0c392f`

訓練成本	v0.19	v1.0	總計
A100 80GB GPU小時數	500	500	1000
平均每小時費率	$0.80/小時	$1.20/小時	$1/小時
美元成本	$400	$600	$1000

模型信息

屬性	詳情
模型架構	- StyleTTS 2: https://arxiv.org/abs/2306.07691 - ISTFTNet: https://arxiv.org/abs/2203.02395 - 僅解碼器：無擴散，無編碼器發佈
架構設計	Li等人 @ https://github.com/yl4579/StyleTTS2
訓練人員	`@rzvzn`（Discord）
支持語言	多種
模型SHA256哈希值	`496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4`

訓練詳情

訓練數據：Kokoro僅使用許可/無版權音頻數據和國際音標（IPA）音素標籤進行訓練。許可/無版權音頻示例包括：
- 公共領域音頻
- 採用Apache、MIT等許可證的音頻
- 大型供應商的封閉^[2] TTS模型生成的合成音頻^[1]
  [1] https://copyright.gov/ai/ai_policy_guidance.pdf
  [2] 不使用開源TTS模型或“自定義語音克隆”生成的合成音頻
總數據集大小：數百小時的音頻
總訓練成本：使用A100 80GB顯存GPU訓練1000小時，約$1000

知識共享歸因

以下采用CC BY許可的音頻是訓練Kokoro v1.0所用數據集的一部分。

音頻數據	使用時長	許可證	加入訓練集時間
Koniwa `tnc`	<1小時	CC BY 3.0	v0.19 / 2024年11月22日
SIWIS	<11小時	CC BY 4.0	v0.19 / 2024年11月22日

致謝

🛠️ 感謝 @yl4579 設計了StyleTTS 2架構。
🏆 感謝 @Pendrokar 將Kokoro引入TTS Spaces Arena。
📊 感謝所有貢獻合成訓練數據的人員。
❤️ 特別感謝所有計算資源贊助者。
👾 Discord服務器：https://discord.gg/QuGxSWBfQy
🪽 Kokoro是一個日語詞彙，意為“心”或“精神”。它也是《終結者》系列中的一個AI名稱。

📄 許可證

本項目採用Apache-2.0許可證。

⚠️ 重要提示

截至2025年4月，通過API使用Kokoro的市場價格為每百萬字符文本輸入低於1美元，或每小時音頻輸出低於0.06美元。（平均而言，1000字符輸入約為1分鐘輸出。）參考來源：ArtificialAnalysis/Replicate，每百萬字符0.65美元和 DeepInfra，每百萬字符0.80美元。

這是一個採用Apache許可證的模型，Kokoro已在眾多項目和商業API中部署。我們歡迎在實際用例中部署該模型。

⚠️ 重要提示

像kokorottsai_com（快照：https://archive.ph/nRRnk）和kokorotts_net（快照：https://archive.ph/60opa）這樣的虛假網站可能是以流行模型之名進行的詐騙。

任何根域名中包含“kokoro”的網站（如kokorottsai_com、kokorotts_net）並非由本模型頁面或其作者所有，也與之無關聯，任何試圖暗示關聯的行為都應引起警惕。