🚀 自动语音识别模型 - wav2vec2-xls-r-myv-a1
本模型是基于自动语音识别技术的微调模型,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYV数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调。它在评估集上取得了较好的效果,可用于自动语音识别相关任务。
📄 许可证
本模型采用Apache - 2.0许可证。
✨ 主要特性
- 多语言支持:支持Erzya语(myv)的自动语音识别。
- 多数据集验证:在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2/dev_data等数据集上进行评估。
- 评估指标良好:在测试集上有一定的WER和CER指标表现。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型(Automatic Speech Recognition) |
训练数据 |
mozilla - foundation/common_voice_8_0 |
评估结果
本模型在评估集上取得了以下结果:
不同数据集评估指标
数据集名称 |
任务类型 |
测试WER |
测试CER |
Common Voice 8 |
自动语音识别 |
0.6514672686230248 |
0.17226131905088124 |
Robust Speech Event - Dev Data |
自动语音识别 |
NA |
NA |
评估命令
1. 在mozilla - foundation/common_voice_8_0测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs
2. 在speech - recognition - community - v2/dev_data上评估
Erzya语言在speech - recognition - community - v2/dev_data中未找到。
训练超参数
训练过程中使用了以下超参数:
- learning_rate: 0.0004
- train_batch_size: 16
- eval_batch_size: 32
- seed: 42
- optimizer: Adam with betas=(0.9, 0.999) and epsilon = 1e - 08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 800
- num_epochs: 200.0
- mixed_precision_training: Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
5.649 |
9.62 |
500 |
3.0038 |
1.0 |
1.6272 |
19.23 |
1000 |
0.7362 |
0.7819 |
1.1354 |
28.85 |
1500 |
0.6410 |
0.7111 |
1.0424 |
38.46 |
2000 |
0.6907 |
0.7431 |
0.9293 |
48.08 |
2500 |
0.7249 |
0.7102 |
0.8246 |
57.69 |
3000 |
0.7422 |
0.6966 |
0.7837 |
67.31 |
3500 |
0.7413 |
0.6813 |
0.7147 |
76.92 |
4000 |
0.7873 |
0.6930 |
0.6276 |
86.54 |
4500 |
0.8038 |
0.6677 |
0.6041 |
96.15 |
5000 |
0.8240 |
0.6831 |
0.5336 |
105.77 |
5500 |
0.8748 |
0.6749 |
0.4705 |
115.38 |
6000 |
0.9006 |
0.6497 |
0.43 |
125.0 |
6500 |
0.8954 |
0.6551 |
0.3859 |
134.62 |
7000 |
0.9074 |
0.6614 |
0.3342 |
144.23 |
7500 |
0.9693 |
0.6560 |
0.3155 |
153.85 |
8000 |
1.0073 |
0.6691 |
0.2673 |
163.46 |
8500 |
1.0170 |
0.6632 |
0.2409 |
173.08 |
9000 |
1.0304 |
0.6709 |
0.2189 |
182.69 |
9500 |
0.9965 |
0.6546 |
0.1973 |
192.31 |
10000 |
1.0360 |
0.6551 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令示例
!python eval.py \
--model_id DrishtiSharma/wav2vec2-large-xls-r-300m-myv-v1 \
--dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs