wav2vec2-large-xls-r-300m-urdu开源模型 - 免费部署精准乌尔都语语音识别

首页

Wav2vec2 Large Xls R 300m Urdu

由 omar47 开发

该模型是基于facebook/wav2vec2-xls-r-300m微调的版本，专门针对乌尔都语语音识别任务进行了优化。

语音识别

Transformers

开源协议:Apache-2.0 #乌尔都语语音识别 #低词错误率 #大模型微调

下载量 27

发布时间 : 4/29/2022

模型简介

这是一个用于乌尔都语语音识别的自动语音识别(ASR)模型，基于wav2vec2-xls-r-300m架构微调，在评估集上取得了17.02%的词错误率(WER)。

模型特点

乌尔都语优化

专门针对乌尔都语语音特征进行微调，提高了识别准确率

低词错误率

在评估集上取得了17.02%的词错误率(WER)

基于大模型微调

基于facebook/wav2vec2-xls-r-300m大模型进行微调，继承了其强大的语音特征提取能力

模型能力

乌尔都语语音识别

音频转文本

语音转录

使用案例

语音转录

乌尔都语会议记录

将乌尔都语会议录音自动转录为文字记录

约83%的准确率

语音助手

用于乌尔都语语音助手应用的语音识别组件

教育

语言学习应用

帮助学习者练习乌尔都语发音并提供反馈

🚀 wav2vec2-large-xls-r-300m-urdu

本模型是基于facebook/wav2vec2-xls-r-300m微调得到的版本。它在评估集上取得了以下结果：

损失值：0.5285
字错率（Wer）：0.1702

🚀 快速开始

本模型可直接用于乌尔都语语音相关的任务，如语音识别等。你可以按照以下步骤使用：

安装必要的库，如transformers等。
加载模型并进行推理。

📚 详细文档

模型描述

本模型是对facebook/wav2vec2-xls-r-300m进行微调后的版本，用于乌尔都语相关语音任务。

预期用途与限制

文档中未详细提及预期用途与限制，后续可根据实际情况补充。

训练和评估数据

文档中未详细提及训练和评估数据的相关信息，后续可根据实际情况补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.0003
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练轮数	35
混合精度训练	Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
16.9618	0.74	32	15.0745	1.0
9.1928	1.49	64	5.9361	1.0
4.9307	2.23	96	4.2924	1.0
3.8917	2.98	128	3.5873	1.0
3.3867	3.72	160	3.2594	1.0
3.2107	4.47	192	3.1718	1.0
3.1395	5.21	224	3.1281	1.0
3.115	5.95	256	3.1238	1.0
3.0801	6.7	288	3.0674	1.0
2.9725	7.44	320	2.8277	1.0
2.4159	8.19	352	1.7186	0.9036
1.3377	8.93	384	1.0271	0.6433
0.8591	9.67	416	0.8087	0.5441
0.726	10.42	448	0.7263	0.4634
0.6242	11.16	480	0.6783	0.4156
0.5417	11.91	512	0.6611	0.4305
0.4784	12.65	544	0.6300	0.3926
0.4198	13.4	576	0.5646	0.3499
0.3798	14.14	608	0.5919	0.3229
0.3356	14.88	640	0.5715	0.3369
0.2954	15.63	672	0.5325	0.2728
0.264	16.37	704	0.5535	0.2689
0.2535	17.12	736	0.5467	0.2366
0.2277	17.86	768	0.5219	0.2345
0.2141	18.6	800	0.5314	0.2487
0.2036	19.35	832	0.5382	0.2236
0.2021	20.09	864	0.5038	0.1922
0.1676	20.84	896	0.5238	0.2033
0.1544	21.58	928	0.5069	0.1866
0.1512	22.33	960	0.5045	0.1965
0.1512	23.07	992	0.5167	0.1862
0.1399	23.81	1024	0.5236	0.1840
0.1291	24.56	1056	0.5234	0.1957
0.1274	25.3	1088	0.5348	0.1943
0.127	26.05	1120	0.4978	0.1719
0.1105	26.79	1152	0.5067	0.1767
0.1069	27.53	1184	0.5150	0.1758
0.1058	28.28	1216	0.5218	0.1844
0.0999	29.02	1248	0.5375	0.1852
0.0964	29.77	1280	0.5373	0.1843
0.0971	30.51	1312	0.5190	0.1776
0.0906	31.26	1344	0.5217	0.1747
0.0909	32.0	1376	0.5204	0.1778
0.0784	32.74	1408	0.5336	0.1756
0.0823	33.49	1440	0.5281	0.1699
0.0834	34.23	1472	0.5292	0.1700
0.0827	34.98	1504	0.5285	0.1702