🚀 泰語蒸餾中型Whisper自動語音識別模型
這是一款基於Whisper架構的蒸餾自動語音識別(ASR)模型,專為泰語語音識別量身定製。該模型通過從更大的教師模型中進行蒸餾,擁有4個解碼器層(教師模型為24個),著重提升了性能和效率。
✨ 主要特性
- 基於Whisper架構,專為泰語語音識別設計。
- 從大型教師模型蒸餾而來,擁有4個解碼器層,兼顧性能與效率。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
蒸餾詳情
- 教師模型:中型Whisper ASR模型
- 蒸餾所用數據集:
- Common Voice v13
- Gowajee
- 泰語老年人語音語料庫
- 自定義爬取數據
- 來自 SLSCU泰語方言語料庫 的泰語中部方言
模型性能
- Common Voice 13測試集上DeepCut分詞後的字錯率(WER):
使用更多蒸餾數據集或增加解碼器層數可能會降低字錯率,更多優化敬請期待!
預期用途
本模型適用於需要泰語語音識別的應用程序。
侷限性
- 該模型專為泰語訓練,對其他語言的識別效果可能不佳。
- 在不同的泰語方言和口音下,性能可能會有所差異。
- 與任何ASR系統一樣,背景噪音和語音清晰度會影響識別準確率。
致謝
本模型的開發使用了語音和語言技術社區提供的資源和數據集。特別感謝Common Voice、Gowajee、SLSCU和泰語老年人語音語料庫背後的團隊提供的寶貴數據集。
框架版本
屬性 |
詳情 |
模型類型 |
泰語蒸餾中型Whisper自動語音識別模型 |
訓練數據 |
Common Voice v13、Gowajee、泰語老年人語音語料庫、自定義爬取數據、來自 SLSCU泰語方言語料庫 的泰語中部方言 |
Transformers版本 |
4.35.2 |
Pytorch版本 |
2.1.2 |
Datasets版本 |
2.16.1 |
Tokenizers版本 |
0.15.0 |
引用
使用Bibtex引用:
@inproceedings{aung-etal-2024-thonburian,
title = "Thonburian Whisper: Robust Fine-tuned and Distilled Whisper for {T}hai",
author = "Aung, Zaw Htet and
Thavornmongkol, Thanachot and
Boribalburephan, Atirut and
Tangsriworakan, Vittavas and
Pipatsrisawat, Knot and
Achakulvisut, Titipat",
editor = "Abbas, Mourad and
Freihat, Abed Alhakim",
booktitle = "Proceedings of the 7th International Conference on Natural Language and Speech Processing (ICNLSP 2024)",
month = oct,
year = "2024",
address = "Trento",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.icnlsp-1.17",
pages = "149--156",
}
📄 許可證
本模型採用MIT許可證。