🚀 Kokoro - 輕量強大的TTS模型系列
Kokoro是一系列體積雖小但功能強大的TTS(文本轉語音)模型。該模型通過短期訓練,從專業數據集中引入了100名中文使用者的數據,為語音合成帶來了更多可能性。
🐈 GitHub項目地址
🚀 快速開始
你可以在 Google Colab 上運行以下代碼:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
注意:後續需要改進使用方法,可參考 https://hf.co/hexgrad/Kokoro-82M#usage ,但在構建 KModel
或 KPipeline
時應傳入 repo_id='hexgrad/Kokoro-82M-v1.1-zh'
。具體可查看 make_en.py
和 make_zh.py
。
✨ 主要特性
- 多語言支持:支持英語和中文兩種語言。
- 小體積大能量:模型參數規模為8200萬,在保證性能的同時,佔用資源較少。
- 數據豐富:訓練數據包含專業中文數據集以及眾包合成英語數據。
📦 安裝指南
在 Google Colab 中運行以下命令進行安裝:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
💻 使用示例
基礎用法
你可以在 Google Colab 上運行以下代碼:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
📚 詳細文檔
版本發佈信息
模型 |
發佈時間 |
訓練數據 |
語言與聲音數量 |
SHA256哈希值 |
v1.1-zh |
2025年2月26日 |
>100小時 |
2種語言,103種聲音 |
b1d8410f |
v1.0 |
2025年1月27日 |
幾百小時 |
8種語言,54種聲音 |
496dba11 |
v0.19 |
2024年12月25日 |
<100小時 |
1種語言,10種聲音 |
3b0c392f |
訓練成本
訓練成本 |
v0.19 |
v1.0 |
v1.1-zh |
總計 |
A100 80GB GPU使用時長 |
500小時 |
500小時 |
120小時 |
1120小時 |
平均每小時費率 |
$0.80/小時 |
$1.20/小時 |
$0.90/小時 |
|
美元成本 |
$400 |
$600 |
$110 |
$1110 |
模型信息
🔧 技術細節
該模型是經過短期訓練的結果,從專業數據集中添加了100名中文使用者。中文數據由專業數據集公司「龍貓數據」免費且無償地提供給我們。另外,一些眾包合成英語數據也進入了訓練組合,包括1小時的美國女性Maple、1小時的另一位美國女性Sol以及1小時的年長英國女性Vale。
該模型並非其前身的嚴格升級,因為它刪除了許多聲音,但提前發佈以收集有關新聲音和標記化的反饋。除了中文數據集和3小時的英語數據外,其餘數據未用於本次訓練。目標是推動模型系列的發展,並最終恢復一些被遺留的聲音。
目前,美國版權局的指導表明合成數據通常不符合版權保護的資格。由於這些合成數據是眾包的,因此模型訓練師不受任何服務條款的約束。該Apache許可模式也符合OpenAI所宣稱的廣泛傳播AI優勢的使命。
📄 許可證
本項目採用Apache 2.0許可證。
致謝
待補充,可參考 https://hf.co/hexgrad/Kokoro-82M#acknowledgements 。
