wav2vec2-large-xls-r-300m-hi-cv8-b2开源ASR模型

首页

Wav2vec2 Large Xls R 300m Hi Cv8 B2

由 DrishtiSharma 开发

这是一个基于Facebook的wav2vec2-xls-r-300m模型在印地语Common Voice 8.0数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #印地语语音识别 #低词错误率 #Common Voice数据集

下载量 22

发布时间 : 3/2/2022

模型简介

该模型专门用于印地语的自动语音识别任务，在Common Voice 8.0数据集上训练，取得了较低的词错误率(WER)。

模型特点

高性能印地语识别

在Common Voice 8.0印地语测试集上取得了38.9%的词错误率(WER)和13.0%的字错误率(CER)

基于XLS-R架构

使用Facebook的wav2vec2-XLS-R-300m作为基础模型，具有强大的语音特征提取能力

精细调优

经过35轮训练，使用线性学习率调度和预热策略优化模型性能

模型能力

印地语语音识别

语音转文本

鲁棒语音事件检测

使用案例

语音转录

印地语语音转文本

将印地语语音内容转换为文本

在测试集上达到38.9% WER

语音助手

印地语语音命令识别

识别和理解印地语语音命令

🚀 wav2vec2-large-xls-r-300m-hi-cv8-b2

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HI 数据集上的微调版本。它在自动语音识别任务中表现出色，能够有效处理印地语语音识别问题，为相关语音应用提供了有力支持。

✨ 主要特性

多语言支持：支持印地语（hi）的自动语音识别。
数据集适配：基于 mozilla-foundation/common_voice_8_0 数据集进行训练和评估。
指标评估：使用词错误率（WER）和字符错误率（CER）进行模型评估。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

损失：0.7322
词错误率（Wer）：0.3469

评估命令

在 mozilla-foundation/common_voice_8_0 测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8-b2 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上进行评估印地语在 speech-recognition-community-v2/dev_data 中不可用。

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.00025
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	700
训练轮数	35
混合精度训练	原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
9.6226	1.04	200	3.8855	1.0
3.4678	2.07	400	3.4283	1.0
2.3668	3.11	600	1.0743	0.7175
0.7308	4.15	800	0.7663	0.5498
0.4985	5.18	1000	0.6957	0.5001
0.3817	6.22	1200	0.6932	0.4866
0.3281	7.25	1400	0.7034	0.4983
0.2752	8.29	1600	0.6588	0.4606
0.2475	9.33	1800	0.6514	0.4328
0.219	10.36	2000	0.6396	0.4176
0.2036	11.4	2200	0.6867	0.4162
0.1793	12.44	2400	0.6943	0.4196
0.1724	13.47	2600	0.6862	0.4260
0.1554	14.51	2800	0.7615	0.4222
0.151	15.54	3000	0.7058	0.4110
0.1335	16.58	3200	0.7172	0.3986
0.1326	17.62	3400	0.7182	0.3923
0.1225	18.65	3600	0.6995	0.3910
0.1146	19.69	3800	0.7075	0.3875
0.108	20.73	4000	0.7297	0.3858
0.1048	21.76	4200	0.7413	0.3850
0.0979	22.8	4400	0.7452	0.3793
0.0946	23.83	4600	0.7436	0.3759
0.0897	24.87	4800	0.7289	0.3754
0.0854	25.91	5000	0.7271	0.3667
0.0803	26.94	5200	0.7378	0.3656
0.0752	27.98	5400	0.7488	0.3680
0.0718	29.02	5600	0.7185	0.3619
0.0702	30.05	5800	0.7428	0.3554
0.0653	31.09	6000	0.7447	0.3559
0.0638	32.12	6200	0.7327	0.3523
0.058	33.16	6400	0.7339	0.3488
0.0594	34.2	6600	0.7322	0.3469