wav2vec2-large-xls-r-300m-hi-cv8开源模型 - 免费实现印地语自动语音识别

首页

Wav2vec2 Large Xls R 300m Hi Cv8

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在印地语Common Voice 8数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #印地语语音识别 #低词错误率 #多场景适配

下载量 25

发布时间 : 3/2/2022

模型简介

该模型专门用于印地语语音识别任务，在Common Voice 8测试集上取得了36.29%的词错误率(WER)和11.93%的字错误率(CER)。

模型特点

印地语语音识别

专门针对印地语优化的语音识别模型

基于大规模预训练模型

基于facebook的wav2vec2-xls-r-300m模型微调，具有强大的语音特征提取能力

在Common Voice数据集上表现良好

在Common Voice 8测试集上取得了36.29%的词错误率

模型能力

印地语语音转文本

长语音识别

对话语音处理

使用案例

语音转录

印地语语音转文字

将印地语语音内容转换为文字

词错误率36.29%，字错误率11.93%

语音助手

印地语语音助手

用于开发支持印地语的语音助手

🚀 wav2vec2-large-xls-r-300m-hi-cv8

该模型是基于MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI数据集对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在自动语音识别任务中表现出色，能有效处理印地语语音数据，为语音识别领域提供了强大的工具。

✨ 主要特性

多任务支持：支持自动语音识别任务。
数据集适配：基于MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI数据集进行微调，适用于印地语语音识别。
评估指标丰富：提供了测试字错误率（WER）和测试字符错误率（CER）等评估指标。

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

损失值（Loss）：0.6510
字错误率（Wer）：0.3179

评估命令

在mozilla-foundation/common_voice_8_0测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

在speech-recognition-community-v2/dev_data上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset speech-recognition-community-v2/dev_data --config hi --split validation --chunk_length_s 10 --stride_length_s 1

⚠️ 重要提示

印地语在speech-recognition-community-v2/dev_data数据集中未找到。

训练超参数

训练过程中使用了以下超参数：

属性	详情
训练批次大小（train_batch_size）	16
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	2
总训练批次大小（total_train_batch_size）	32
优化器（optimizer）	Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	2000
训练轮数（num_epochs）	50
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	字错误率（Wer）
12.5576	1.04	200	6.6594	1.0
4.4069	2.07	400	3.6011	1.0
3.4273	3.11	600	3.3370	1.0
2.1108	4.15	800	1.0641	0.6562
0.8817	5.18	1000	0.7178	0.5172
0.6508	6.22	1200	0.6612	0.4839
0.5524	7.25	1400	0.6458	0.4889
0.4992	8.29	1600	0.5791	0.4382
0.4669	9.33	1800	0.6039	0.4352
0.4441	10.36	2000	0.6276	0.4297
0.4172	11.4	2200	0.6183	0.4474
0.3872	12.44	2400	0.5886	0.4231
0.3692	13.47	2600	0.6448	0.4399
0.3385	14.51	2800	0.6344	0.4075
0.3246	15.54	3000	0.5896	0.4087
0.3026	16.58	3200	0.6158	0.4016
0.284	17.62	3400	0.6038	0.3906
0.2682	18.65	3600	0.6165	0.3900
0.2577	19.69	3800	0.5754	0.3805
0.2509	20.73	4000	0.6028	0.3925
0.2426	21.76	4200	0.6335	0.4138
0.2346	22.8	4400	0.6128	0.3870
0.2205	23.83	4600	0.6223	0.3831
0.2104	24.87	4800	0.6122	0.3781
0.1992	25.91	5000	0.6467	0.3792
0.1916	26.94	5200	0.6277	0.3636
0.1835	27.98	5400	0.6317	0.3773
0.1776	29.02	5600	0.6124	0.3614
0.1751	30.05	5800	0.6475	0.3628
0.1662	31.09	6000	0.6266	0.3504
0.1584	32.12	6200	0.6347	0.3532
0.1494	33.16	6400	0.6636	0.3491
0.1457	34.2	6600	0.6334	0.3507
0.1427	35.23	6800	0.6397	0.3442
0.1397	36.27	7000	0.6468	0.3496
0.1283	37.31	7200	0.6291	0.3416
0.1255	38.34	7400	0.6652	0.3461
0.1195	39.38	7600	0.6587	0.3342
0.1169	40.41	7800	0.6478	0.3319
0.1126	41.45	8000	0.6280	0.3291
0.1112	42.49	8200	0.6434	0.3290
0.1069	43.52	8400	0.6542	0.3268
0.1027	44.56	8600	0.6536	0.3239
0.0993	45.6	8800	0.6622	0.3257
0.0973	46.63	9000	0.6572	0.3192
0.0911	47.67	9200	0.6522	0.3175
0.0897	48.7	9400	0.6521	0.3200
0.0905	49.74	9600	0.6510	0.3179