🚀 泰語Wav2Vec2與CommonVoice V8(newmm分詞器)+ 語言模型
本模型利用CommonVoice V8數據集進行訓練,通過從CommonVoice V7數據集中增加數據而來,該數據集曾被用於airesearch/wav2vec2-large-xlsr-53-th。它對wav2vec2-large-xlsr-53進行了微調。
🔍 模型信息
屬性 |
詳情 |
語言 |
泰語 |
標籤 |
自動語音識別 |
許可證 |
Apache-2.0 |
數據集 |
CommonVoice |
評估指標 |
詞錯誤率(WER)、字符錯誤率(CER) |
🚀 快速開始
本模型主要用於泰語的自動語音識別任務,通過結合CommonVoice V8數據集和語言模型,提升了識別的準確性。
📚 詳細文檔
模型描述
數據集
該模型在Common Voice V7數據集的基礎上增加了Common Voice V8數據集的新數據,或者在分割Common Voice V8之前移除Common Voice V7中的所有數據,然後再將CommonVoice V7數據集添加回數據集中。
使用ekapolc/Thai_commonvoice_split腳本對Common Voice數據集進行分割。
模型
該模型對wav2vec2-large-xlsr-53模型進行了微調,使用泰語Common Voice V8數據集,並使用pythainlp.tokenize.word_tokenize
進行預分詞。
訓練
訓練過程中使用了vistec-AI/wav2vec2-large-xlsr-53-th中的許多代碼,並修復了vistec-AI/wav2vec2-large-xlsr-53-th#2中的訓練代碼錯誤。
評估
使用CommonVoice V8測試集進行測試
模型 |
newmm分詞的詞錯誤率(%) |
deepcut分詞的詞錯誤率(%) |
字符錯誤率 |
AIResearch.in.th和PyThaiNLP |
17.414503 |
11.923089 |
3.854153 |
wav2vec2 with deepcut |
16.354521 |
11.424476 |
3.684060 |
wav2vec2 with newmm |
16.698299 |
11.436941 |
3.737407 |
wav2vec2 with deepcut + 語言模型 |
12.630260 |
9.613886 |
3.292073 |
wav2vec2 with newmm + 語言模型 |
12.583706 |
9.598305 |
3.276610 |
使用CommonVoice V7測試集進行測試(與CV V7測試相同)
模型 |
newmm分詞的詞錯誤率(%) |
deepcut分詞的詞錯誤率(%) |
字符錯誤率 |
AIResearch.in.th和PyThaiNLP |
13.936698 |
9.347462 |
2.804787 |
wav2vec2 with deepcut |
12.776381 |
8.773006 |
2.628882 |
wav2vec2 with newmm |
12.750596 |
8.672616 |
2.623341 |
wav2vec2 with deepcut + 語言模型 |
9.940050 |
7.423313 |
2.344940 |
wav2vec2 with newmm + 語言模型 |
9.559724 |
7.339654 |
2.277071 |
此測試使用了與https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th相同的測試集。
鏈接:
BibTeX引用信息
@misc{phatthiyaphaibun2022thai,
title={Thai Wav2Vec2.0 with CommonVoice V8},
author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
year={2022},
eprint={2208.04799},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用Apache-2.0許可證。