Kokoro 82M
Kokoro是一款擁有8200萬參數的開源TTS模型,音質媲美更大模型,同時具備顯著的速度優勢和成本效益。
下載量 376
發布時間 : 2/26/2025
模型概述
Kokoro是一款輕量級文本轉語音模型,基於StyleTTS2架構,支持多種語言和音色,適用於生產環境和個人項目。
模型特點
輕量高效
8200萬參數的輕量架構,在保持高質量音質的同時具備快速推理能力
多語言支持
支持8種語言和54種音色,滿足多樣化需求
開源許可
採用Apache-2.0許可證,可自由用於商業和個人項目
低成本訓練
僅需1000美元訓練成本,使用A100 GPU完成訓練
模型能力
高質量語音合成
多語言語音生成
音色切換
語速調節
使用案例
內容創作
有聲讀物生成
將文本內容轉換為自然語音
生成高質量、富有表現力的語音
視頻配音
為視頻內容添加多語言配音
支持多種語言和音色的語音輸出
輔助技術
語音輔助應用
為視障用戶提供文本朗讀功能
生成清晰自然的語音輸出
🚀 Kokoro - 輕量級高效文本轉語音模型
Kokoro是一個擁有8200萬參數的開源權重文本轉語音(TTS)模型。儘管架構輕量,但它能提供與大型模型相媲美的質量,同時速度更快、成本更低。其權重採用Apache許可證,可在從生產環境到個人項目的任何場景中部署。
⬆️ Kokoro已升級到v1.0版本! 查看版本發佈。
✨ 現在你可以通過pip install kokoro
進行安裝!查看使用方法。
🚀 快速開始
你可以通過以下命令安裝Kokoro推理庫:
pip install kokoro
安裝完成後,你可以參考下面的使用示例進行操作。
✨ 主要特性
- 輕量級架構:僅8200萬參數,卻能提供與大型模型相媲美的語音質量。
- 高效性能:速度更快,成本更低,適合各種場景部署。
- 多語言支持:支持美式英語、英式英語、法語、印地語等多種語言。
- 開源權重:採用Apache許可證,可自由用於生產環境和個人項目。
📦 安裝指南
你可以使用pip
命令安裝Kokoro:
pip install kokoro
安裝鏈接:pip install kokoro
💻 使用示例
基礎用法
# 1️⃣ 安裝kokoro
!pip install -q kokoro>=0.3.4 soundfile
# 2️⃣ 安裝espeak,用於英語OOD回退和一些非英語語言
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
# 🇪🇸 'e' => 西班牙語 es
# 🇫🇷 'f' => 法語 fr-fr
# 🇮🇳 'h' => 印地語 hi
# 🇮🇹 'i' => 意大利語 it
# 🇧🇷 'p' => 巴西葡萄牙語 pt-br
# 3️⃣ 初始化一個管道
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
# 🇺🇸 'a' => 美式英語, 🇬🇧 'b' => 英式英語
# 🇯🇵 'j' => 日語: pip install misaki[ja]
# 🇨🇳 'z' => 普通話: pip install misaki[zh]
pipeline = KPipeline(lang_code='a') # <= 確保lang_code與語音匹配
# 此文本僅用於演示目的,訓練期間未見過
text = '''
The sky above the port was the color of television, tuned to a dead channel.
"It's not like I'm using," Case heard someone say, as he shouldered his way through the crowd around the door of the Chat. "It's like my body's developed this massive drug deficiency."
It was a Sprawl voice and a Sprawl joke. The Chatsubo was a bar for professional expatriates; you could drink there for a week and never hear two words in Japanese.
These were to have an enormous impact, not only because they were associated with Constantine, but also because, as in so many other areas, the decisions taken by Constantine (or in his name) were to have great significance for centuries to come. One of the main issues was the shape that Christian churches were to take, since there was not, apparently, a tradition of monumental church buildings when Constantine decided to help the Christian church build a series of truly spectacular structures. The main form that these churches took was that of the basilica, a multipurpose rectangular structure, based ultimately on the earlier Greek stoa, which could be found in most of the great cities of the empire. Christianity, unlike classical polytheism, needed a large interior space for the celebration of its religious services, and the basilica aptly filled that need. We naturally do not know the degree to which the emperor was involved in the design of new churches, but it is tempting to connect this with the secular basilica that Constantine completed in the Roman forum (the so-called Basilica of Maxentius) and the one he probably built in Trier, in connection with his residence in the city at a time when he was still caesar.
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
# text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'
# text = '中國人民不信邪也不怕邪,不惹事也不怕事,任何外國不要指望我們會拿自己的核心利益做交易,不要指望我們會吞下損害我國主權、安全、發展利益的苦果!'
# text = 'Los partidos políticos tradicionales compiten con los populismos y los movimientos asamblearios.'
# text = 'Le dromadaire resplendissant déambulait tranquillement dans les méandres en mastiquant de petites feuilles vernissées.'
# text = 'ट्रांसपोर्टरों की हड़ताल लगातार पांचवें दिन जारी, दिसंबर से इलेक्ट्रॉनिक टोल कलेक्शनल सिस्टम'
# text = "Allora cominciava l'insonnia, o un dormiveglia peggiore dell'insonnia, che talvolta assumeva i caratteri dell'incubo."
# text = 'Elabora relatórios de acompanhamento cronológico para as diferentes unidades do Departamento que propõem contratos.'
# 4️⃣ 循環生成、顯示和保存音頻文件。
generator = pipeline(
text, voice='af_heart', # <= 在此更改語音
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # i => 索引
print(gs) # gs => 字符/文本
print(ps) # ps => 音素
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) # 保存每個音頻文件
📚 詳細文檔
版本發佈
模型 | 發佈時間 | 訓練數據 | 語言和語音 | SHA256 |
---|---|---|---|---|
v0.19 | 2024年12月25日 | <100小時 | 1種語言和10種語音 | 3b0c392f |
v1.0 | 2025年1月27日 | 幾百小時 | 8種語言和54種語音 | 496dba11 |
訓練成本 | v0.19 | v1.0 | 總計 |
---|---|---|---|
A100 80GB GPU小時數 | 500 | 500 | 1000 |
平均每小時費率 | $0.80/小時 | $1.20/小時 | $1/小時 |
美元成本 | $400 | $600 | $1000 |
模型信息
屬性 | 詳情 |
---|---|
模型架構 | StyleTTS 2: https://arxiv.org/abs/2306.07691 ISTFTNet: https://arxiv.org/abs/2203.02395 僅解碼器:無擴散,無編碼器發佈 |
架構設計 | Li等人 @ https://github.com/yl4579/StyleTTS2 |
訓練人員 | @rzvzn (Discord) |
支持語言 | 美式英語、英式英語、法語、印地語 |
模型SHA256哈希值 | 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4 |
訓練詳情
- 訓練數據:Kokoro僅在許可/無版權音頻數據和國際音標(IPA)音素標籤上進行訓練。許可/無版權音頻的示例包括:
- 公共領域音頻
- 採用Apache、MIT等許可證的音頻
- 大型供應商的封閉[2] TTS模型生成的合成音頻[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不使用開源TTS模型或“自定義語音克隆”生成的合成音頻
- 總數據集大小:幾百小時的音頻
- 總訓練成本:使用A100 80GB顯存進行1000小時訓練,約1000美元
知識共享署名說明
以下采用CC BY許可證的音頻是訓練Kokoro v1.0所用數據集的一部分。
音頻數據 | 使用時長 | 許可證 | 添加到訓練集時間 |
---|---|---|---|
Koniwa tnc |
<1小時 | CC BY 3.0 | v0.19 / 2024年11月22日 |
SIWIS | <11小時 | CC BY 4.0 | v0.19 / 2024年11月22日 |
致謝
- 🛠️ 感謝@yl4579設計了StyleTTS 2架構。
- 🏆 感謝@Pendrokar將Kokoro納入TTS Spaces Arena。
- 📊 感謝所有貢獻合成訓練數據的人員。
- ❤️ 特別感謝所有計算資源贊助商。
- 👾 Discord服務器:https://discord.gg/QuGxSWBfQy
- 🪽 Kokoro是一個日語單詞,意為“心”或“精神”。Kokoro也是《終結者》系列中的一個AI的名字。

📄 許可證
本項目採用Apache-2.0許可證。
Kokoro 82M
Apache-2.0
Kokoro是一款擁有8200萬參數的開源文本轉語音(TTS)模型,以其輕量級架構和高音質著稱,同時具備快速和成本效益高的特點。
語音合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的語音生成模型,僅需6秒音頻片段即可實現跨語言音色克隆,支持17種語言。
語音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一個基於流匹配的語音合成模型,專注於流暢且忠實的語音合成,特別適用於童話講述等場景。
語音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型,支持高質量的文本轉語音轉換。
語音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari實驗室開發的16億參數文本轉語音模型,能夠直接從文本生成高度逼真的對話,支持情感和語調控制,並能生成非語言交流內容。
語音合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
語音合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一個開放權重的小型但功能強大的文本轉語音(TTS)模型系列,新增了來自專業數據集的100名中文說話人數據。
語音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本,支持21種語言,包括多種印度語言和英語。
語音合成
Transformers 支持多種語言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成
Transformers 支持多種語言

B
suno
35.72k
1,326
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98