wav2vec2-large-xls-r-300m-hi-wx1开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Hi Wx1

由 DrishtiSharma 开发

这是一个基于Facebook的wav2vec2-xls-r-300m模型在印地语Common Voice 7.0数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #印地语语音识别 #低词错误率 #Common Voice数据集

下载量 18

发布时间 : 3/2/2022

模型简介

该模型专门用于印地语语音识别任务，在Common Voice 7.0印地语数据集上进行了优化训练。

模型特点

印地语语音识别

专门针对印地语优化的语音识别模型

基于大规模预训练模型

基于Facebook的wav2vec2-xls-r-300m模型微调

相对轻量级

3亿参数的模型规模，在保持性能的同时相对轻量

模型能力

印地语语音转文本

语音识别

语音转录

使用案例

语音转录

印地语语音转录

将印地语语音内容转换为文本

在Common Voice 7.0测试集上WER为37.2%，CER为11.76%

语音助手

印地语语音助手

为印地语语音助手提供语音识别能力

🚀 wav2vec2-large-xls-r-300m-hi-wx1

该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - HI数据集对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在自动语音识别任务中表现出色，能有效处理印地语语音数据。

🚀 快速开始

本模型可用于自动语音识别任务，以下是评估该模型的相关信息。

评估命令

在mozilla - foundation/common_voice_8_0测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-wx1 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估暂无可用评估命令。

✨ 主要特性

微调模型：基于facebook/wav2vec2 - xls - r - 300m在特定数据集上微调，更适配印地语语音识别任务。
多指标评估：使用字错率（WER）和字符错误率（CER）等指标进行评估，全面衡量模型性能。

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

损失值：0.6552
字错率（WER）：0.3200

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.00024
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	1800
训练轮数	50
混合精度训练	原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（WER）
12.2663	1.36	200	5.9245	1.0
4.1856	2.72	400	3.4968	1.0
3.3908	4.08	600	2.9970	1.0
1.5444	5.44	800	0.9071	0.6139
0.7237	6.8	1000	0.6508	0.4862
0.5323	8.16	1200	0.6217	0.4647
0.4426	9.52	1400	0.5785	0.4288
0.3933	10.88	1600	0.5935	0.4217
0.3532	12.24	1800	0.6358	0.4465
0.3319	13.6	2000	0.5789	0.4118
0.2877	14.96	2200	0.6163	0.4056
0.2663	16.33	2400	0.6176	0.3893
0.2511	17.68	2600	0.6065	0.3999
0.2275	19.05	2800	0.6183	0.3842
0.2098	20.41	3000	0.6486	0.3864
0.1943	21.77	3200	0.6365	0.3885
0.1877	23.13	3400	0.6013	0.3677
0.1679	24.49	3600	0.6451	0.3795
0.1667	25.85	3800	0.6410	0.3635
0.1514	27.21	4000	0.6000	0.3577
0.1453	28.57	4200	0.6020	0.3518
0.134	29.93	4400	0.6531	0.3517
0.1354	31.29	4600	0.6874	0.3578
0.1224	32.65	4800	0.6519	0.3492
0.1199	34.01	5000	0.6553	0.3490
0.1077	35.37	5200	0.6621	0.3429
0.0997	36.73	5400	0.6641	0.3413
0.0964	38.09	5600	0.6722	0.3385
0.0931	39.45	5800	0.6365	0.3363
0.0944	40.81	6000	0.6454	0.3326
0.0862	42.18	6200	0.6497	0.3256
0.0848	43.54	6400	0.6599	0.3226
0.0793	44.89	6600	0.6625	0.3232
0.076	46.26	6800	0.6463	0.3186
0.0749	47.62	7000	0.6559	0.3225
0.0663	48.98	7200	0.6552	0.3200