🚀 Kokoro - 轻量强大的TTS模型系列
Kokoro是一系列体积虽小但功能强大的TTS(文本转语音)模型。该模型通过短期训练,从专业数据集中引入了100名中文使用者的数据,为语音合成带来了更多可能性。
🐈 GitHub项目地址
🚀 快速开始
你可以在 Google Colab 上运行以下代码:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
注意:后续需要改进使用方法,可参考 https://hf.co/hexgrad/Kokoro-82M#usage ,但在构建 KModel
或 KPipeline
时应传入 repo_id='hexgrad/Kokoro-82M-v1.1-zh'
。具体可查看 make_en.py
和 make_zh.py
。
✨ 主要特性
- 多语言支持:支持英语和中文两种语言。
- 小体积大能量:模型参数规模为8200万,在保证性能的同时,占用资源较少。
- 数据丰富:训练数据包含专业中文数据集以及众包合成英语数据。
📦 安装指南
在 Google Colab 中运行以下命令进行安装:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
💻 使用示例
基础用法
你可以在 Google Colab 上运行以下代码:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
📚 详细文档
版本发布信息
模型 |
发布时间 |
训练数据 |
语言与声音数量 |
SHA256哈希值 |
v1.1-zh |
2025年2月26日 |
>100小时 |
2种语言,103种声音 |
b1d8410f |
v1.0 |
2025年1月27日 |
几百小时 |
8种语言,54种声音 |
496dba11 |
v0.19 |
2024年12月25日 |
<100小时 |
1种语言,10种声音 |
3b0c392f |
训练成本
训练成本 |
v0.19 |
v1.0 |
v1.1-zh |
总计 |
A100 80GB GPU使用时长 |
500小时 |
500小时 |
120小时 |
1120小时 |
平均每小时费率 |
$0.80/小时 |
$1.20/小时 |
$0.90/小时 |
|
美元成本 |
$400 |
$600 |
$110 |
$1110 |
模型信息
🔧 技术细节
该模型是经过短期训练的结果,从专业数据集中添加了100名中文使用者。中文数据由专业数据集公司「龙猫数据」免费且无偿地提供给我们。另外,一些众包合成英语数据也进入了训练组合,包括1小时的美国女性Maple、1小时的另一位美国女性Sol以及1小时的年长英国女性Vale。
该模型并非其前身的严格升级,因为它删除了许多声音,但提前发布以收集有关新声音和标记化的反馈。除了中文数据集和3小时的英语数据外,其余数据未用于本次训练。目标是推动模型系列的发展,并最终恢复一些被遗留的声音。
目前,美国版权局的指导表明合成数据通常不符合版权保护的资格。由于这些合成数据是众包的,因此模型训练师不受任何服务条款的约束。该Apache许可模式也符合OpenAI所宣称的广泛传播AI优势的使命。
📄 许可证
本项目采用Apache 2.0许可证。
致谢
待补充,可参考 https://hf.co/hexgrad/Kokoro-82M#acknowledgements 。
