Kokorotts
Kokoro是一款拥有8200万参数的开源文本转语音模型,以轻量架构提供媲美大型模型的音质,同时显著提升速度和成本效益。
下载量 78
发布时间 : 2/27/2025
模型简介
Kokoro是基于StyleTTS2架构的多语言文本转语音模型,支持8种语言和54种音色,适用于从生产环境到个人项目的各种部署场景。
模型特点
轻量高效
仅8200万参数的轻量架构,却能提供与大型模型相媲美的音质
多语言支持
支持8种语言和54种音色,满足多样化需求
开源许可
采用Apache-2.0许可,可自由部署于商业和个人项目
低成本训练
仅需1000美元训练成本(1000 A100 GPU小时)
模型能力
高质量文本转语音
多语言语音合成
音色切换
语速调节
使用案例
内容创作
有声读物生成
将文字内容转换为自然语音
支持多种语言和音色选择
辅助技术
语音辅助应用
为视障用户提供语音输出功能
轻量模型适合移动端部署
教育
语言学习工具
生成多语言发音示范
支持8种语言的准确发音
🚀 Kokoro - 轻量级高效文本转语音模型
Kokoro 是一款拥有 8200 万个参数的开源权重文本转语音(TTS)模型。尽管架构轻量,但它能提供与大型模型相媲美的质量,同时速度更快、成本更低。其权重采用 Apache 许可证,可广泛应用于生产环境和个人项目。
⬆️ Kokoro 已升级到 v1.0 版本! 查看 版本发布。
🚀 无代码演示:https://hf.co/spaces/hexgrad/Kokoro-TTS
✨ 现在你可以通过 pip install kokoro
进行安装!查看 使用方法。
🚀 快速开始
你可以通过以下链接体验无代码演示:Kokoro 无代码演示。也可以使用 pip
安装:pip install kokoro
。
✨ 主要特性
- 轻量高效:仅 8200 万个参数,却能提供与大型模型相当的语音质量,且速度更快、成本更低。
- 广泛适用:采用 Apache 许可证,可用于生产环境和个人项目。
- 多语言支持:支持多种语言和丰富的语音。
📦 安装指南
你可以使用以下命令安装 kokoro
推理库:
pip install kokoro
💻 使用示例
基础用法
你可以在 Google Colab 上运行以下代码:
# 1️⃣ 安装 kokoro
!pip install -q kokoro>=0.8.2 soundfile
# 2️⃣ 安装 espeak,用于英语 OOD 回退和一些非英语语言
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
# 🇪🇸 'e' => 西班牙语 es
# 🇫🇷 'f' => 法语 fr-fr
# 🇮🇳 'h' => 印地语 hi
# 🇮🇹 'i' => 意大利语 it
# 🇧🇷 'p' => 巴西葡萄牙语 pt-br
# 3️⃣ 初始化一个管道
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
# 🇺🇸 'a' => 美式英语, 🇬🇧 'b' => 英式英语
# 🇯🇵 'j' => 日语: pip install misaki[ja]
# 🇨🇳 'z' => 普通话: pip install misaki[zh]
pipeline = KPipeline(lang_code='a') # <= 确保 lang_code 与语音匹配
# 此文本仅用于演示目的,训练时未见过
text = '''
The sky above the port was the color of television, tuned to a dead channel.
"It's not like I'm using," Case heard someone say, as he shouldered his way through the crowd around the door of the Chat. "It's like my body's developed this massive drug deficiency."
It was a Sprawl voice and a Sprawl joke. The Chatsubo was a bar for professional expatriates; you could drink there for a week and never hear two words in Japanese.
These were to have an enormous impact, not only because they were associated with Constantine, but also because, as in so many other areas, the decisions taken by Constantine (or in his name) were to have great significance for centuries to come. One of the main issues was the shape that Christian churches were to take, since there was not, apparently, a tradition of monumental church buildings when Constantine decided to help the Christian church build a series of truly spectacular structures. The main form that these churches took was that of the basilica, a multipurpose rectangular structure, based ultimately on the earlier Greek stoa, which could be found in most of the great cities of the empire. Christianity, unlike classical polytheism, needed a large interior space for the celebration of its religious services, and the basilica aptly filled that need. We naturally do not know the degree to which the emperor was involved in the design of new churches, but it is tempting to connect this with the secular basilica that Constantine completed in the Roman forum (the so-called Basilica of Maxentius) and the one he probably built in Trier, in connection with his residence in the city at a time when he was still caesar.
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
# text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'
# text = '中國人民不信邪也不怕邪,不惹事也不怕事,任何外國不要指望我們會拿自己的核心利益做交易,不要指望我們會吞下損害我國主權、安全、發展利益的苦果!'
# text = 'Los partidos políticos tradicionales compiten con los populismos y los movimientos asamblearios.'
# text = 'Le dromadaire resplendissant déambulait tranquillement dans les méandres en mastiquant de petites feuilles vernissées.'
# text = 'ट्रांसपोर्टरों की हड़ताल लगातार पांचवें दिन जारी, दिसंबर से इलेक्ट्रॉनिक टोल कलेक्शनल सिस्टम'
# text = "Allora cominciava l'insonnia, o un dormiveglia peggiore dell'insonnia, che talvolta assumeva i caratteri dell'incubo."
# text = 'Elabora relatórios de acompanhamento cronológico para as diferentes unidades do Departamento que propõem contratos.'
# 4️⃣ 循环生成、展示和保存音频文件
generator = pipeline(
text, voice='af_heart', # <= 在此更改语音
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # i => 索引
print(gs) # gs => 字符/文本
print(ps) # ps => 音素
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) # 保存每个音频文件
高级用法
kokoro
底层使用了 misaki
这个 G2P 库,你可以根据需要进一步探索其高级功能。
📚 详细文档
你可以查看以下文档获取更多信息:
🔧 技术细节
模型信息
属性 | 详情 |
---|---|
模型架构 | StyleTTS 2(https://arxiv.org/abs/2306.07691)、ISTFTNet(https://arxiv.org/abs/2203.02395),仅解码器,无扩散,无编码器发布 |
架构设计 | Li 等人(https://github.com/yl4579/StyleTTS2) |
训练人员 | @rzvzn (Discord) |
支持语言 | 多种 |
模型 SHA256 哈希值 | 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4 |
训练详情
- 训练数据:Kokoro 仅在许可/无版权音频数据和 IPA 音素标签上进行训练。许可/无版权音频示例包括:
- 公共领域音频
- 采用 Apache、MIT 等许可证的音频
- 大型供应商的闭源 TTS 模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
注意:不使用开源 TTS 模型或“自定义语音克隆”的合成音频。
- 总数据集大小:几百小时的音频。
- 总训练成本:使用 A100 80GB vRAM 进行 1000 小时训练,约 1000 美元。
📄 许可证
本项目采用 Apache-2.0 许可证。
知识共享许可声明
以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。
音频数据 | 使用时长 | 许可证 | 加入训练集时间 |
---|---|---|---|
Koniwa tnc |
<1 小时 | CC BY 3.0 | v0.19 / 2024 年 11 月 22 日 |
SIWIS | <11 小时 | CC BY 4.0 | v0.19 / 2024 年 11 月 22 日 |
致谢
- 🛠️ 感谢 @yl4579 设计了 StyleTTS 2 架构。
- 🏆 感谢 @Pendrokar 将 Kokoro 引入 TTS Spaces Arena。
- 📊 感谢所有贡献合成训练数据的人员。
- ❤️ 特别感谢所有计算资源赞助商。
- 👾 Discord 服务器:https://discord.gg/QuGxSWBfQy
- 🪽 Kokoro 在日语中意为“心”或“精神”,也是 《终结者》系列中的一个 AI 名称。

Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成 英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors 英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors 英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers 支持多种语言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers 支持多种语言

B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98