Kokoro 82M
Kokoro是一款拥有8200万参数的开源TTS模型,音质媲美更大模型,同时具备显著的速度优势和成本效益。
下载量 376
发布时间 : 2/26/2025
模型简介
Kokoro是一款轻量级文本转语音模型,基于StyleTTS2架构,支持多种语言和音色,适用于生产环境和个人项目。
模型特点
轻量高效
8200万参数的轻量架构,在保持高质量音质的同时具备快速推理能力
多语言支持
支持8种语言和54种音色,满足多样化需求
开源许可
采用Apache-2.0许可证,可自由用于商业和个人项目
低成本训练
仅需1000美元训练成本,使用A100 GPU完成训练
模型能力
高质量语音合成
多语言语音生成
音色切换
语速调节
使用案例
内容创作
有声读物生成
将文本内容转换为自然语音
生成高质量、富有表现力的语音
视频配音
为视频内容添加多语言配音
支持多种语言和音色的语音输出
辅助技术
语音辅助应用
为视障用户提供文本朗读功能
生成清晰自然的语音输出
🚀 Kokoro - 轻量级高效文本转语音模型
Kokoro是一个拥有8200万参数的开源权重文本转语音(TTS)模型。尽管架构轻量,但它能提供与大型模型相媲美的质量,同时速度更快、成本更低。其权重采用Apache许可证,可在从生产环境到个人项目的任何场景中部署。
⬆️ Kokoro已升级到v1.0版本! 查看版本发布。
✨ 现在你可以通过pip install kokoro
进行安装!查看使用方法。
🚀 快速开始
你可以通过以下命令安装Kokoro推理库:
pip install kokoro
安装完成后,你可以参考下面的使用示例进行操作。
✨ 主要特性
- 轻量级架构:仅8200万参数,却能提供与大型模型相媲美的语音质量。
- 高效性能:速度更快,成本更低,适合各种场景部署。
- 多语言支持:支持美式英语、英式英语、法语、印地语等多种语言。
- 开源权重:采用Apache许可证,可自由用于生产环境和个人项目。
📦 安装指南
你可以使用pip
命令安装Kokoro:
pip install kokoro
安装链接:pip install kokoro
💻 使用示例
基础用法
# 1️⃣ 安装kokoro
!pip install -q kokoro>=0.3.4 soundfile
# 2️⃣ 安装espeak,用于英语OOD回退和一些非英语语言
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
# 🇪🇸 'e' => 西班牙语 es
# 🇫🇷 'f' => 法语 fr-fr
# 🇮🇳 'h' => 印地语 hi
# 🇮🇹 'i' => 意大利语 it
# 🇧🇷 'p' => 巴西葡萄牙语 pt-br
# 3️⃣ 初始化一个管道
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
# 🇺🇸 'a' => 美式英语, 🇬🇧 'b' => 英式英语
# 🇯🇵 'j' => 日语: pip install misaki[ja]
# 🇨🇳 'z' => 普通话: pip install misaki[zh]
pipeline = KPipeline(lang_code='a') # <= 确保lang_code与语音匹配
# 此文本仅用于演示目的,训练期间未见过
text = '''
The sky above the port was the color of television, tuned to a dead channel.
"It's not like I'm using," Case heard someone say, as he shouldered his way through the crowd around the door of the Chat. "It's like my body's developed this massive drug deficiency."
It was a Sprawl voice and a Sprawl joke. The Chatsubo was a bar for professional expatriates; you could drink there for a week and never hear two words in Japanese.
These were to have an enormous impact, not only because they were associated with Constantine, but also because, as in so many other areas, the decisions taken by Constantine (or in his name) were to have great significance for centuries to come. One of the main issues was the shape that Christian churches were to take, since there was not, apparently, a tradition of monumental church buildings when Constantine decided to help the Christian church build a series of truly spectacular structures. The main form that these churches took was that of the basilica, a multipurpose rectangular structure, based ultimately on the earlier Greek stoa, which could be found in most of the great cities of the empire. Christianity, unlike classical polytheism, needed a large interior space for the celebration of its religious services, and the basilica aptly filled that need. We naturally do not know the degree to which the emperor was involved in the design of new churches, but it is tempting to connect this with the secular basilica that Constantine completed in the Roman forum (the so-called Basilica of Maxentius) and the one he probably built in Trier, in connection with his residence in the city at a time when he was still caesar.
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
# text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'
# text = '中國人民不信邪也不怕邪,不惹事也不怕事,任何外國不要指望我們會拿自己的核心利益做交易,不要指望我們會吞下損害我國主權、安全、發展利益的苦果!'
# text = 'Los partidos políticos tradicionales compiten con los populismos y los movimientos asamblearios.'
# text = 'Le dromadaire resplendissant déambulait tranquillement dans les méandres en mastiquant de petites feuilles vernissées.'
# text = 'ट्रांसपोर्टरों की हड़ताल लगातार पांचवें दिन जारी, दिसंबर से इलेक्ट्रॉनिक टोल कलेक्शनल सिस्टम'
# text = "Allora cominciava l'insonnia, o un dormiveglia peggiore dell'insonnia, che talvolta assumeva i caratteri dell'incubo."
# text = 'Elabora relatórios de acompanhamento cronológico para as diferentes unidades do Departamento que propõem contratos.'
# 4️⃣ 循环生成、显示和保存音频文件。
generator = pipeline(
text, voice='af_heart', # <= 在此更改语音
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # i => 索引
print(gs) # gs => 字符/文本
print(ps) # ps => 音素
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) # 保存每个音频文件
📚 详细文档
版本发布
模型 | 发布时间 | 训练数据 | 语言和语音 | SHA256 |
---|---|---|---|---|
v0.19 | 2024年12月25日 | <100小时 | 1种语言和10种语音 | 3b0c392f |
v1.0 | 2025年1月27日 | 几百小时 | 8种语言和54种语音 | 496dba11 |
训练成本 | v0.19 | v1.0 | 总计 |
---|---|---|---|
A100 80GB GPU小时数 | 500 | 500 | 1000 |
平均每小时费率 | $0.80/小时 | $1.20/小时 | $1/小时 |
美元成本 | $400 | $600 | $1000 |
模型信息
属性 | 详情 |
---|---|
模型架构 | StyleTTS 2: https://arxiv.org/abs/2306.07691 ISTFTNet: https://arxiv.org/abs/2203.02395 仅解码器:无扩散,无编码器发布 |
架构设计 | Li等人 @ https://github.com/yl4579/StyleTTS2 |
训练人员 | @rzvzn (Discord) |
支持语言 | 美式英语、英式英语、法语、印地语 |
模型SHA256哈希值 | 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4 |
训练详情
- 训练数据:Kokoro仅在许可/无版权音频数据和国际音标(IPA)音素标签上进行训练。许可/无版权音频的示例包括:
- 公共领域音频
- 采用Apache、MIT等许可证的音频
- 大型供应商的封闭[2] TTS模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不使用开源TTS模型或“自定义语音克隆”生成的合成音频
- 总数据集大小:几百小时的音频
- 总训练成本:使用A100 80GB显存进行1000小时训练,约1000美元
知识共享署名说明
以下采用CC BY许可证的音频是训练Kokoro v1.0所用数据集的一部分。
音频数据 | 使用时长 | 许可证 | 添加到训练集时间 |
---|---|---|---|
Koniwa tnc |
<1小时 | CC BY 3.0 | v0.19 / 2024年11月22日 |
SIWIS | <11小时 | CC BY 4.0 | v0.19 / 2024年11月22日 |
致谢
- 🛠️ 感谢@yl4579设计了StyleTTS 2架构。
- 🏆 感谢@Pendrokar将Kokoro纳入TTS Spaces Arena。
- 📊 感谢所有贡献合成训练数据的人员。
- ❤️ 特别感谢所有计算资源赞助商。
- 👾 Discord服务器:https://discord.gg/QuGxSWBfQy
- 🪽 Kokoro是一个日语单词,意为“心”或“精神”。Kokoro也是《终结者》系列中的一个AI的名字。

📄 许可证
本项目采用Apache-2.0许可证。
Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成 英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors 英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors 英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers 支持多种语言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers 支持多种语言

B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98