wav2vec2-xls-r-300m-ur-cv9-with-lm开源模型 - 精准乌尔都语语音自动识别

首页

Wav2vec2 Xls R 300m Ur Cv9 With Lm

由 anuragshas 开发

该模型是基于facebook/wav2vec2-xls-r-300m在乌尔都语语音数据集上微调的自动语音识别(ASR)模型

语音识别

Transformers

其他开源协议:Apache-2.0 #乌尔都语语音识别 #低词错误率 #多语言支持

下载量 18

发布时间 : 5/4/2022

模型简介

这是一个针对乌尔都语优化的语音识别模型，在Common Voice 9.0乌尔都语数据集上训练，能够将乌尔都语语音转换为文本

模型特点

乌尔都语优化

专门针对乌尔都语语音识别任务进行微调

高性能

在Common Voice测试集上达到23.75%的词错误率(WER)和8.31%的字错误率(CER)

基于XLS-R架构

采用Facebook强大的XLS-R(跨语言语音表示)架构

模型能力

乌尔都语语音识别

语音转文本

自动转录

使用案例

语音转录

乌尔都语语音转录

将乌尔都语语音内容转换为文本

准确率达到76.25%(WER 23.75%)

语音助手

乌尔都语语音指令识别

用于乌尔都语语音助手和命令控制系统

🚀 XLS - R - 300M - 乌尔都语语音识别模型

本模型是基于Transformer架构的自动语音识别模型，在乌尔都语数据集上进行微调，可有效提升乌尔都语语音识别的准确性。

🚀 快速开始

本模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_9_0 - UR 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.4147
词错误率（Wer）：0.3172
字符错误率（Cer）：0.1050

✨ 主要特性

微调优化：基于预训练模型在乌尔都语数据集上微调，提升乌尔都语语音识别效果。
多指标评估：使用损失值、词错误率、字符错误率等多指标评估模型性能。

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：7.5e - 05
训练批次大小：64
评估批次大小：64
随机种子：42
梯度累积步数：2
总训练批次大小：128
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身比例：0.1
训练步数：5108
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）	字符错误率（Cer）
3.2894	7.83	400	3.1501	1.0	1.0
1.8586	15.68	800	0.8871	0.6721	0.2402
1.3431	23.52	1200	0.5813	0.5502	0.1939
1.2052	31.37	1600	0.4956	0.4788	0.1665
1.1097	39.21	2000	0.4447	0.4143	0.1397
1.0528	47.06	2400	0.4439	0.3961	0.1333
0.9939	54.89	2800	0.4348	0.4014	0.1379
0.9441	62.74	3200	0.4236	0.3653	0.1223
0.913	70.58	3600	0.4309	0.3475	0.1157
0.8678	78.43	4000	0.4270	0.3337	0.1110
0.8414	86.27	4400	0.4158	0.3220	0.1070
0.817	94.12	4800	0.4185	0.3231	0.1072

框架版本

Transformers 4.19.0.dev0
Pytorch 1.11.0 + cu102
Datasets 2.1.1.dev0
Tokenizers 0.12.1

📄 许可证

本项目采用 Apache - 2.0 许可证。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	MOZILLA - FOUNDATION/COMMON_VOICE_9_0 - UR 数据集
评估指标	词错误率（Wer）、字符错误率（Cer）、损失值