wav2vec2-large-xls-r-300m-hi-d3开源模型 - 精准实现印地语语音自动识别

首页

Wav2vec2 Large Xls R 300m Hi D3

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在印地语数据集上微调的自动语音识别(ASR)模型，专门用于印地语语音识别任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #印地语语音识别 #高精度WER优化 #Common Voice适配

下载量 22

发布时间 : 3/2/2022

模型简介

该模型是针对印地语优化的自动语音识别模型，在Common Voice 7.0印地语数据集上进行了微调，可用于将印地语语音转换为文本。

模型特点

印地语优化

专门针对印地语语音识别进行了优化和微调

基于大模型

基于facebook/wav2vec2-xls-r-300m大模型构建

良好性能

在Common Voice 7.0测试集上WER为42.04%，CER为13.87%

模型能力

印地语语音识别

语音转文本

自动语音识别

使用案例

语音转录

印地语语音转录

将印地语语音内容转换为文本

WER 42.04%, CER 13.87%

语音助手

印地语语音助手

用于构建支持印地语的语音助手

🚀 wav2vec2-large-xls-r-300m-hi-d3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - HI数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它能够解决自动语音识别任务中的相关问题，为印地语的语音识别提供了有效的解决方案，具有一定的实用价值。

✨ 主要特性

支持印地语的自动语音识别。
基于微调的wav2vec2 - xls - r - 300m模型，在相关数据集上有特定的评估指标表现。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla - foundation/common_voice_7_0

评估结果

本模型在评估集上取得了以下结果：

损失值（Loss）: 0.7988
词错误率（Wer）: 0.3713

评估命令

在mozilla - foundation/common_voice_8_0的测试分割集上进行评估：

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-d3 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估：印地语在speech - recognition - community - v2/dev_data中不可用。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）: 0.000388
训练批次大小（train_batch_size）: 16
评估批次大小（eval_batch_size）: 8
随机种子（seed）: 42
梯度累积步数（gradient_accumulation_steps）: 2
总训练批次大小（total_train_batch_size）: 32
优化器（optimizer）: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）: 线性
学习率调度器热身步数（lr_scheduler_warmup_steps）: 750
训练轮数（num_epochs）: 50
混合精度训练（mixed_precision_training）: 原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
8.2826	1.36	200	3.5253	1.0
2.7019	2.72	400	1.1744	0.7360
0.7358	4.08	600	0.7781	0.5501
0.4942	5.44	800	0.7590	0.5345
0.4056	6.8	1000	0.6885	0.4776
0.3243	8.16	1200	0.7195	0.4861
0.2785	9.52	1400	0.7473	0.4930
0.2448	10.88	1600	0.7201	0.4574
0.2155	12.24	1800	0.7686	0.4648
0.2039	13.6	2000	0.7440	0.4624
0.1792	14.96	2200	0.7815	0.4658
0.1695	16.33	2400	0.7678	0.4557
0.1598	17.68	2600	0.7468	0.4393
0.1568	19.05	2800	0.7440	0.4422
0.1391	20.41	3000	0.7656	0.4317
0.1283	21.77	3200	0.7892	0.4299
0.1194	23.13	3400	0.7646	0.4192
0.1116	24.49	3600	0.8156	0.4330
0.1111	25.85	3800	0.7661	0.4322
0.1023	27.21	4000	0.7419	0.4276
0.1007	28.57	4200	0.8488	0.4245
0.0925	29.93	4400	0.8062	0.4070
0.0918	31.29	4600	0.8412	0.4218
0.0813	32.65	4800	0.8045	0.4087
0.0805	34.01	5000	0.8411	0.4113
0.0774	35.37	5200	0.7664	0.3943
0.0666	36.73	5400	0.8082	0.3939
0.0655	38.09	5600	0.7948	0.4000
0.0617	39.45	5800	0.8084	0.3932
0.0606	40.81	6000	0.8223	0.3841
0.0569	42.18	6200	0.7892	0.3832
0.0544	43.54	6400	0.8326	0.3834
0.0508	44.89	6600	0.7952	0.3774
0.0492	46.26	6800	0.7923	0.3756
0.0459	47.62	7000	0.7925	0.3701
0.0423	48.98	7200	0.7988	0.3713