🚀 XLS-R西班牙语测试模型
本模型是基于自动语音识别技术的模型,在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES数据集上微调了facebook/wav2vec2 - large - xlsr - 53模型,在评估集上取得了不错的效果。
🚀 快速开始
本模型是facebook/wav2vec2 - large - xlsr - 53在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES数据集上的微调版本。它在评估集上取得了以下结果:
- 损失值:0.1461
- 词错误率(Wer):1.0063
✨ 主要特性
本模型适用于自动语音识别任务,可处理西班牙语语音数据。
📚 详细文档
模型描述
本模型基于预训练的facebook/wav2vec2 - large - xlsr - 53,在西班牙语语音数据集上进行了微调,以适应西班牙语的语音识别任务。
预期用途与限制
文档暂未提供相关信息。
训练和评估数据
文档暂未提供相关信息。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):7.5e - 05
- 训练批次大小(train_batch_size):8
- 评估批次大小(eval_batch_size):8
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):32
- 优化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2000
- 训练轮数(num_epochs):5.0
- 混合精度训练(mixed_precision_training):原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
2.953 |
0.15 |
1000 |
2.9528 |
1.0 |
1.1519 |
0.3 |
2000 |
0.3735 |
1.0357 |
1.0278 |
0.45 |
3000 |
0.2529 |
1.0390 |
0.9922 |
0.61 |
4000 |
0.2208 |
1.0270 |
0.9618 |
0.76 |
5000 |
0.2088 |
1.0294 |
0.9364 |
0.91 |
6000 |
0.2019 |
1.0214 |
0.9179 |
1.06 |
7000 |
0.1940 |
1.0294 |
0.9154 |
1.21 |
8000 |
0.1915 |
1.0290 |
0.8985 |
1.36 |
9000 |
0.1837 |
1.0211 |
0.9055 |
1.51 |
10000 |
0.1838 |
1.0273 |
0.8861 |
1.67 |
11000 |
0.1765 |
1.0139 |
0.892 |
1.82 |
12000 |
0.1723 |
1.0188 |
0.8778 |
1.97 |
13000 |
0.1735 |
1.0092 |
0.8645 |
2.12 |
14000 |
0.1707 |
1.0106 |
0.8595 |
2.27 |
15000 |
0.1713 |
1.0186 |
0.8392 |
2.42 |
16000 |
0.1686 |
1.0053 |
0.8436 |
2.57 |
17000 |
0.1653 |
1.0096 |
0.8405 |
2.73 |
18000 |
0.1689 |
1.0077 |
0.8382 |
2.88 |
19000 |
0.1645 |
1.0114 |
0.8247 |
3.03 |
20000 |
0.1647 |
1.0078 |
0.8219 |
3.18 |
21000 |
0.1611 |
1.0026 |
0.8024 |
3.33 |
22000 |
0.1580 |
1.0062 |
0.8087 |
3.48 |
23000 |
0.1578 |
1.0038 |
0.8097 |
3.63 |
24000 |
0.1556 |
1.0057 |
0.8094 |
3.79 |
25000 |
0.1552 |
1.0035 |
0.7836 |
3.94 |
26000 |
0.1516 |
1.0052 |
0.8042 |
4.09 |
27000 |
0.1515 |
1.0054 |
0.7925 |
4.24 |
28000 |
0.1499 |
1.0031 |
0.7855 |
4.39 |
29000 |
0.1490 |
1.0041 |
0.7814 |
4.54 |
30000 |
0.1482 |
1.0068 |
0.7859 |
4.69 |
31000 |
0.1460 |
1.0066 |
0.7819 |
4.85 |
32000 |
0.1464 |
1.0062 |
0.7784 |
5.0 |
33000 |
0.1460 |
1.0063 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2 + cu102
- Datasets:1.18.3.dev0
- Tokenizers:0.11.0
📄 许可证
本模型使用Apache - 2.0许可证。
🔧 技术细节
模型指标
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES数据集 |
任务结果
本模型在不同数据集上的评估结果如下:
- Common Voice 7数据集:
- 测试词错误率(Test WER):13.89
- 测试字符错误率(Test CER):3.85
- Robust Speech Event - Dev Data数据集:
- 测试词错误率(Test WER):37.66
- 测试字符错误率(Test CER):15.32
- Robust Speech Event - Test Data数据集:
- 测试词错误率(Test WER):41.17
- 测试字符错误率(Test CER)暂未提及 |