🚀 泰语Wav2Vec2与CommonVoice V8(newmm分词器)+ 语言模型
本模型利用CommonVoice V8数据集进行训练,通过从CommonVoice V7数据集中增加数据而来,该数据集曾被用于airesearch/wav2vec2-large-xlsr-53-th。它对wav2vec2-large-xlsr-53进行了微调。
🔍 模型信息
属性 |
详情 |
语言 |
泰语 |
标签 |
自动语音识别 |
许可证 |
Apache-2.0 |
数据集 |
CommonVoice |
评估指标 |
词错误率(WER)、字符错误率(CER) |
🚀 快速开始
本模型主要用于泰语的自动语音识别任务,通过结合CommonVoice V8数据集和语言模型,提升了识别的准确性。
📚 详细文档
模型描述
数据集
该模型在Common Voice V7数据集的基础上增加了Common Voice V8数据集的新数据,或者在分割Common Voice V8之前移除Common Voice V7中的所有数据,然后再将CommonVoice V7数据集添加回数据集中。
使用ekapolc/Thai_commonvoice_split脚本对Common Voice数据集进行分割。
模型
该模型对wav2vec2-large-xlsr-53模型进行了微调,使用泰语Common Voice V8数据集,并使用pythainlp.tokenize.word_tokenize
进行预分词。
训练
训练过程中使用了vistec-AI/wav2vec2-large-xlsr-53-th中的许多代码,并修复了vistec-AI/wav2vec2-large-xlsr-53-th#2中的训练代码错误。
评估
使用CommonVoice V8测试集进行测试
模型 |
newmm分词的词错误率(%) |
deepcut分词的词错误率(%) |
字符错误率 |
AIResearch.in.th和PyThaiNLP |
17.414503 |
11.923089 |
3.854153 |
wav2vec2 with deepcut |
16.354521 |
11.424476 |
3.684060 |
wav2vec2 with newmm |
16.698299 |
11.436941 |
3.737407 |
wav2vec2 with deepcut + 语言模型 |
12.630260 |
9.613886 |
3.292073 |
wav2vec2 with newmm + 语言模型 |
12.583706 |
9.598305 |
3.276610 |
使用CommonVoice V7测试集进行测试(与CV V7测试相同)
模型 |
newmm分词的词错误率(%) |
deepcut分词的词错误率(%) |
字符错误率 |
AIResearch.in.th和PyThaiNLP |
13.936698 |
9.347462 |
2.804787 |
wav2vec2 with deepcut |
12.776381 |
8.773006 |
2.628882 |
wav2vec2 with newmm |
12.750596 |
8.672616 |
2.623341 |
wav2vec2 with deepcut + 语言模型 |
9.940050 |
7.423313 |
2.344940 |
wav2vec2 with newmm + 语言模型 |
9.559724 |
7.339654 |
2.277071 |
此测试使用了与https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th相同的测试集。
链接:
BibTeX引用信息
@misc{phatthiyaphaibun2022thai,
title={Thai Wav2Vec2.0 with CommonVoice V8},
author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
year={2022},
eprint={2208.04799},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目采用Apache-2.0许可证。