🚀 wav2vec2-large-xls-r-300m-bg-v1 语音识别模型
本模型基于Transformer架构,是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BG数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本,可用于保加利亚语的自动语音识别任务,在相关评估集上有良好表现。
✨ 主要特性
- 多数据集适配:可在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2等数据集上进行评估。
- 明确的评估指标:在评估集上提供了Loss、Wer、CER等指标数据,方便衡量模型性能。
- 详细的训练参数:公开了训练时使用的超参数,如学习率、批次大小等,便于复现训练过程。
📚 详细文档
模型信息
属性 |
详情 |
支持语言 |
保加利亚语(bg) |
许可证 |
Apache - 2.0 |
模型类型 |
自动语音识别(automatic - speech - recognition) |
训练数据集 |
mozilla - foundation/common_voice_8_0 |
评估结果
本模型在不同数据集上的评估结果如下:
- Common Voice 8数据集(保加利亚语)
- Test WER:0.4709579127785184
- Test CER:0.10205125354383235
- Robust Speech Event - Dev Data数据集(保加利亚语)
- Test WER:0.7053128872366791
- Test CER:0.210804311998487
- Robust Speech Event - Test Data数据集(保加利亚语)
在评估集上的其他结果:
评估命令
在mozilla - foundation/common_voice_8_0测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs
在speech - recognition - community - v2/dev_data数据集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1
训练超参数
- 学习率(learning_rate):7e - 05
- 训练批次大小(train_batch_size):32
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):42
- 优化器(optimizer):Adam,betas = (0.9, 0.999),epsilon = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2000
- 训练轮数(num_epochs):50.0
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
验证损失(Validation Loss) |
词错误率(Wer) |
4.3711 |
2.61 |
300 |
4.3122 |
1.0 |
3.1653 |
5.22 |
600 |
3.1156 |
1.0 |
2.8904 |
7.83 |
900 |
2.8421 |
0.9918 |
0.9207 |
10.43 |
1200 |
0.9895 |
0.8689 |
0.6384 |
13.04 |
1500 |
0.6994 |
0.7700 |
0.5215 |
15.65 |
1800 |
0.5628 |
0.6443 |
0.4573 |
18.26 |
2100 |
0.5316 |
0.6174 |
0.3875 |
20.87 |
2400 |
0.4932 |
0.5779 |
0.3562 |
23.48 |
2700 |
0.4972 |
0.5475 |
0.3218 |
26.09 |
3000 |
0.4895 |
0.5219 |
0.2954 |
28.7 |
3300 |
0.5226 |
0.5192 |
0.287 |
31.3 |
3600 |
0.4957 |
0.5146 |
0.2587 |
33.91 |
3900 |
0.4944 |
0.4893 |
0.2496 |
36.52 |
4200 |
0.4976 |
0.4895 |
0.2365 |
39.13 |
4500 |
0.5185 |
0.4819 |
0.2264 |
41.74 |
4800 |
0.5152 |
0.4776 |
0.2224 |
44.35 |
5100 |
0.5031 |
0.4746 |
0.2096 |
46.96 |
5400 |
0.5062 |
0.4708 |
0.2038 |
49.57 |
5700 |
0.5217 |
0.4698 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 许可证
本模型使用Apache - 2.0许可证。