Mandarin_naive开源普通话语音识别模型 - 精准识别助力语音交互应用

Mandarin Naive

Developed by GleamEyeBeast

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的普通话语音识别模型

Downloads 22

Release Time : 3/2/2022

Model Overview

一个针对普通话优化的语音识别模型，基于wav2vec2-xls-r-300m架构微调，在Common Voice数据集上训练

普通话优化

专门针对普通话语音识别任务进行微调

基于wav2vec2架构

采用facebook的wav2vec2-xls-r-300m预训练模型作为基础

中等规模

300M参数的模型规模，平衡了性能与计算资源需求

普通话语音识别

语音转文本

语音转录

普通话语音转录

将普通话语音内容转换为文本

词错误率(WER)0.3999

语音助手

普通话语音指令识别

用于语音助手系统中的指令识别

训练损失	轮数	步数	验证损失	字错率（WER）
4.8963	3.67	400	1.0645	0.8783
0.5506	7.34	800	0.5032	0.5389
0.2111	11.01	1200	0.4765	0.4712
0.1336	14.68	1600	0.4815	0.4511
0.0974	18.35	2000	0.4956	0.4370
0.0748	22.02	2400	0.4881	0.4235
0.0584	25.69	2800	0.4732	0.4193
0.0458	29.36	3200	0.4584	0.3999