wav2vec2-urdu开源乌尔都语语音识别模型 - 免费实现精准语音转文字

Wav2vec2 Urdu

由 kingabzpro 开发

基于wav2vec2架构的乌尔都语自动语音识别模型，在Common Voice数据集上微调

下载量 101

发布时间 : 3/2/2022

模型简介

这是一个针对乌尔都语优化的自动语音识别(ASR)模型，基于Facebook的wav2vec2架构，在Common Voice乌尔都语数据集上进行了微调。

乌尔都语优化

专门针对乌尔都语语音识别任务进行优化

基于wav2vec2架构

采用Facebook强大的wav2vec2架构，具有良好的语音特征提取能力

小样本微调

在有限的乌尔都语语音数据(0.58小时)上进行微调

乌尔都语语音识别

语音转文本

自动语音识别

语音转录

乌尔都语语音转录

将乌尔都语语音转换为文本

词错误率57.47%，字符错误率32.68%

语音助手

乌尔都语语音指令识别

用于乌尔都语语音助手或控制系统的语音指令识别

本模型是基于 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 在 common_voice 数据集上进行微调的版本。它在评估集上取得了以下成果，能够有效提升乌尔都语语音识别的准确性，为乌尔都语语音处理相关应用提供有力支持。

本模型是 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 在 common_voice 数据集上的微调版本。它在评估集上取得了以下结果：

训练和验证数据集时长为 0.58 小时。由于数据量较少，很难训练出理想的模型，因此决定采用 vakyansh-wav2vec2-urdu-urm-60 检查点对 wav2vec2 模型进行微调。

由于样本数量较少，在 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 基础上进行训练。

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）	字符错误率（Cer）
4.3054	16.67	50	9.0055	0.8306	0.4869
2.0629	33.33	100	9.5849	0.6061	0.3414
0.8966	50.0	150	4.8686	0.6052	0.3426
0.4197	66.67	200	12.3261	0.5817	0.3370
0.294	83.33	250	11.9653	0.5712	0.3328
0.2329	100.0	300	7.6846	0.5747	0.3268