wav2vec2-large-xlsr-53-th-cv8-newmm开源泰语语音识别模型

首页

Wav2vec2 Large Xlsr 53 Th Cv8 Newmm

由 wannaphong 开发

该模型是基于CommonVoice V8数据集训练的泰语自动语音识别模型，采用wav2vec2-large-xlsr-53架构，使用newmm分词器并整合语言模型，显著提升了泰语语音识别准确率。

语音识别

Transformers

其他开源协议:Apache-2.0 #泰语语音识别 #低词错误率 #多分词器支持

下载量 6,486

发布时间 : 6/6/2022

模型简介

该模型专门针对泰语语音识别任务优化，通过结合CommonVoice V8数据集和语言模型，在词错误率(WER)和字符错误率(CER)上表现出色。

模型特点

改进的数据集

使用CommonVoice V8数据集，相比V7版本数据量更大，训练效果更优

优化的分词处理

采用newmm分词器进行预分词处理，针对泰语特性优化

语言模型整合

结合语言模型进一步提升识别准确率

多指标评估

同时评估词错误率(WER)和字符错误率(CER)，全面衡量模型性能

模型能力

泰语语音识别

语音转文本

多指标性能评估

使用案例

语音转写

泰语语音转录

将泰语语音内容转换为文本

在CommonVoice V8测试集上达到12.58% WER(newmm分词)

语音助手

泰语语音指令识别

用于泰语语音助手或智能设备的指令识别

🚀 泰语Wav2Vec2与CommonVoice V8（newmm分词器）+ 语言模型

本模型利用CommonVoice V8数据集进行训练，通过从CommonVoice V7数据集中增加数据而来，该数据集曾被用于airesearch/wav2vec2-large-xlsr-53-th。它对wav2vec2-large-xlsr-53进行了微调。

🔍 模型信息

属性	详情
语言	泰语
标签	自动语音识别
许可证	Apache-2.0
数据集	CommonVoice
评估指标	词错误率（WER）、字符错误率（CER）

🚀 快速开始

本模型主要用于泰语的自动语音识别任务，通过结合CommonVoice V8数据集和语言模型，提升了识别的准确性。

📚 详细文档

模型描述

技术报告：Thai Wav2Vec2.0 with CommonVoice V8

数据集

该模型在Common Voice V7数据集的基础上增加了Common Voice V8数据集的新数据，或者在分割Common Voice V8之前移除Common Voice V7中的所有数据，然后再将CommonVoice V7数据集添加回数据集中。使用ekapolc/Thai_commonvoice_split脚本对Common Voice数据集进行分割。

模型

该模型对wav2vec2-large-xlsr-53模型进行了微调，使用泰语Common Voice V8数据集，并使用pythainlp.tokenize.word_tokenize进行预分词。

训练

训练过程中使用了vistec-AI/wav2vec2-large-xlsr-53-th中的许多代码，并修复了vistec-AI/wav2vec2-large-xlsr-53-th#2中的训练代码错误。

评估

使用CommonVoice V8测试集进行测试

模型	newmm分词的词错误率（%）	deepcut分词的词错误率（%）	字符错误率
AIResearch.in.th和PyThaiNLP	17.414503	11.923089	3.854153
wav2vec2 with deepcut	16.354521	11.424476	3.684060
wav2vec2 with newmm	16.698299	11.436941	3.737407
wav2vec2 with deepcut + 语言模型	12.630260	9.613886	3.292073
wav2vec2 with newmm + 语言模型	12.583706	9.598305	3.276610

使用CommonVoice V7测试集进行测试（与CV V7测试相同）

模型	newmm分词的词错误率（%）	deepcut分词的词错误率（%）	字符错误率
AIResearch.in.th和PyThaiNLP	13.936698	9.347462	2.804787
wav2vec2 with deepcut	12.776381	8.773006	2.628882
wav2vec2 with newmm	12.750596	8.672616	2.623341
wav2vec2 with deepcut + 语言模型	9.940050	7.423313	2.344940
wav2vec2 with newmm + 语言模型	9.559724	7.339654	2.277071

此测试使用了与https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th相同的测试集。

链接：

GitHub数据集：https://github.com/wannaphong/thai_commonvoice_dataset
技术报告：Thai Wav2Vec2.0 with CommonVoice V8

BibTeX引用信息

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}