🚀 wav2vec2-large-xls-r-300m-pa-IN-dx1 模型
该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - PA - IN数据集对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在自动语音识别任务中表现出色,为旁遮普语(pa - IN)的语音识别提供了有效的解决方案。
📦 模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
mozilla - foundation/common_voice_8_0 |
许可证 |
Apache - 2.0 |
标签 |
automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、pa - IN、robust - speech - event、hf - asr - leaderboard |
📚 详细文档
评估结果
该模型在评估集上取得了以下结果:
- 损失值(Loss): 1.0855
- 词错误率(Wer): 0.4755
评估命令
- 在mozilla - foundation/common_voice_8_0测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-pa-IN-dx1 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上评估
旁遮普语在speech - recognition - community - v2/dev_data中不可用。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate): 0.0003
- 训练批次大小(train_batch_size): 16
- 评估批次大小(eval_batch_size): 8
- 随机种子(seed): 42
- 优化器(optimizer): Adam(betas=(0.9, 0.999),epsilon = 1e - 08)
- 学习率调度器类型(lr_scheduler_type): 线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps): 1200
- 训练轮数(num_epochs): 100.0
- 混合精度训练(mixed_precision_training): 原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率 |
3.4607 |
9.26 |
500 |
2.7746 |
1.0416 |
0.3442 |
18.52 |
1000 |
0.9114 |
0.5911 |
0.2213 |
27.78 |
1500 |
0.9687 |
0.5751 |
0.1242 |
37.04 |
2000 |
1.0204 |
0.5461 |
0.0998 |
46.3 |
2500 |
1.0250 |
0.5233 |
0.0727 |
55.56 |
3000 |
1.1072 |
0.5382 |
0.0605 |
64.81 |
3500 |
1.0588 |
0.5073 |
0.0458 |
74.07 |
4000 |
1.0818 |
0.5069 |
0.0338 |
83.33 |
4500 |
1.0948 |
0.5108 |
0.0223 |
92.59 |
5000 |
1.0986 |
0.4775 |
框架版本
- Transformers: 4.17.0.dev0
- Pytorch: 1.10.2+cu102
- Datasets: 1.18.2.dev0
- Tokenizers: 0.11.0