Wav2Vec2_xls_r_300m_hi_final开源印地语语音识别模型

Wav2vec2 Xls R 300m Hi Final

由 LegolasTheElf 开发

基于facebook/wav2vec2-xls-r-300m微调的印地语语音识别模型，在Openslr多语言语料库和Common Voice 7.0数据集上训练

下载量 14

发布时间 : 3/2/2022

模型简介

这是一个针对印地语优化的自动语音识别(ASR)模型，适用于将印地语语音转换为文本的任务

多数据集训练

结合Openslr多语言语料库和Common Voice 7.0数据集进行训练，提高模型泛化能力

低错误率

在评估集上达到31.37%的词错误率(WER)和9.72%的字错误率(CER)

高效训练

采用混合精度训练和梯度累积技术优化训练效率

印地语语音识别

语音转文本

长音频处理

语音转录

印地语语音转写

将印地语语音内容转换为文字

在测试集上达到31.37%的词错误率

语音助手

印地语语音指令识别

用于支持印地语的语音助手系统

该模型是基于特定数据集微调的语音识别模型，在评估集上有良好表现，可用于自动语音识别任务。

该模型基于预训练模型进行微调，能够在特定数据集上进行自动语音识别任务，并且在评估集上展现出了一定的性能指标。

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）	字符错误率（Cer）
0.9821	0.64	400	0.5059	0.4783	0.1573
0.6861	1.28	800	0.4201	0.4247	0.1356
0.585	1.92	1200	0.3797	0.3811	0.1210
0.5193	2.56	1600	0.3577	0.3652	0.1152
0.4583	3.21	2000	0.3422	0.3519	0.1111
0.4282	3.85	2400	0.3261	0.3450	0.1071
0.3951	4.49	2800	0.3201	0.3325	0.1048
0.3619	5.13	3200	0.3167	0.3296	0.1030
0.345	5.77	3600	0.3157	0.3210	0.1013
0.338	6.41	4000	0.3051	0.3143	0.0982
0.3155	7.05	4400	0.3059	0.3154	0.0986
0.3057	7.69	4800	0.3035	0.3137	0.0972

本项目采用 Apache-2.0 许可证。

属性	详情
模型类型	基于微调的自动语音识别模型
训练数据	'Openslr Multilingual and code-switching ASR challenge' 数据集和 'mozilla-foundation/common_voice_7_0' 数据集