🚀 泰语蒸馏中型Whisper自动语音识别模型
这是一款基于Whisper架构的蒸馏自动语音识别(ASR)模型,专为泰语语音识别量身定制。该模型通过从更大的教师模型中进行蒸馏,拥有4个解码器层(教师模型为24个),着重提升了性能和效率。
✨ 主要特性
- 基于Whisper架构,专为泰语语音识别设计。
- 从大型教师模型蒸馏而来,拥有4个解码器层,兼顾性能与效率。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
蒸馏详情
- 教师模型:中型Whisper ASR模型
- 蒸馏所用数据集:
- Common Voice v13
- Gowajee
- 泰语老年人语音语料库
- 自定义爬取数据
- 来自 SLSCU泰语方言语料库 的泰语中部方言
模型性能
- Common Voice 13测试集上DeepCut分词后的字错率(WER):
使用更多蒸馏数据集或增加解码器层数可能会降低字错率,更多优化敬请期待!
预期用途
本模型适用于需要泰语语音识别的应用程序。
局限性
- 该模型专为泰语训练,对其他语言的识别效果可能不佳。
- 在不同的泰语方言和口音下,性能可能会有所差异。
- 与任何ASR系统一样,背景噪音和语音清晰度会影响识别准确率。
致谢
本模型的开发使用了语音和语言技术社区提供的资源和数据集。特别感谢Common Voice、Gowajee、SLSCU和泰语老年人语音语料库背后的团队提供的宝贵数据集。
框架版本
属性 |
详情 |
模型类型 |
泰语蒸馏中型Whisper自动语音识别模型 |
训练数据 |
Common Voice v13、Gowajee、泰语老年人语音语料库、自定义爬取数据、来自 SLSCU泰语方言语料库 的泰语中部方言 |
Transformers版本 |
4.35.2 |
Pytorch版本 |
2.1.2 |
Datasets版本 |
2.16.1 |
Tokenizers版本 |
0.15.0 |
引用
使用Bibtex引用:
@inproceedings{aung-etal-2024-thonburian,
title = "Thonburian Whisper: Robust Fine-tuned and Distilled Whisper for {T}hai",
author = "Aung, Zaw Htet and
Thavornmongkol, Thanachot and
Boribalburephan, Atirut and
Tangsriworakan, Vittavas and
Pipatsrisawat, Knot and
Achakulvisut, Titipat",
editor = "Abbas, Mourad and
Freihat, Abed Alhakim",
booktitle = "Proceedings of the 7th International Conference on Natural Language and Speech Processing (ICNLSP 2024)",
month = oct,
year = "2024",
address = "Trento",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.icnlsp-1.17",
pages = "149--156",
}
📄 许可证
本模型采用MIT许可证。