🚀 XLS - R - 300M - 德语语音识别模型
本模型是基于自动语音识别技术的模型,在德语语音识别任务上进行了优化。它基于预训练模型微调而来,能够有效处理德语语音数据,为德语语音识别相关应用提供支持。
🚀 快速开始
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - DE 数据集上的微调版本。它在评估集上取得了以下结果:
- 损失:0.1355
- 词错误率(Wer):0.1532
📚 详细文档
模型描述
该模型是针对德语语音识别进行微调的版本,基于强大的预训练模型,在德语语音数据集上进行了优化训练。
预期用途与限制
目前文档未提供相关详细信息。
训练和评估数据
目前文档未提供相关详细信息。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:7.5e - 05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:2000
- 训练轮数:2.5
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
1.0826 |
0.07 |
1000 |
0.4637 |
0.4654 |
1.118 |
0.15 |
2000 |
0.2595 |
0.2687 |
1.1268 |
0.22 |
3000 |
0.2635 |
0.2661 |
1.0919 |
0.29 |
4000 |
0.2417 |
0.2566 |
1.1013 |
0.37 |
5000 |
0.2414 |
0.2567 |
1.0898 |
0.44 |
6000 |
0.2546 |
0.2731 |
1.0808 |
0.51 |
7000 |
0.2399 |
0.2535 |
1.0719 |
0.59 |
8000 |
0.2353 |
0.2528 |
1.0446 |
0.66 |
9000 |
0.2427 |
0.2545 |
1.0347 |
0.73 |
10000 |
0.2266 |
0.2402 |
1.0457 |
0.81 |
11000 |
0.2290 |
0.2448 |
1.0124 |
0.88 |
12000 |
0.2295 |
0.2448 |
1.025 |
0.95 |
13000 |
0.2138 |
0.2345 |
1.0107 |
1.03 |
14000 |
0.2108 |
0.2294 |
0.9758 |
1.1 |
15000 |
0.2019 |
0.2204 |
0.9547 |
1.17 |
16000 |
0.2000 |
0.2178 |
0.986 |
1.25 |
17000 |
0.2018 |
0.2200 |
0.9588 |
1.32 |
18000 |
0.1992 |
0.2138 |
0.9413 |
1.39 |
19000 |
0.1898 |
0.2049 |
0.9339 |
1.47 |
20000 |
0.1874 |
0.2056 |
0.9268 |
1.54 |
21000 |
0.1797 |
0.1976 |
0.9194 |
1.61 |
22000 |
0.1743 |
0.1905 |
0.8987 |
1.69 |
23000 |
0.1738 |
0.1932 |
0.8884 |
1.76 |
24000 |
0.1703 |
0.1873 |
0.8939 |
1.83 |
25000 |
0.1633 |
0.1831 |
0.8629 |
1.91 |
26000 |
0.1549 |
0.1750 |
0.8607 |
1.98 |
27000 |
0.1550 |
0.1738 |
0.8316 |
2.05 |
28000 |
0.1512 |
0.1709 |
0.8321 |
2.13 |
29000 |
0.1481 |
0.1657 |
0.825 |
2.2 |
30000 |
0.1446 |
0.1627 |
0.8115 |
2.27 |
31000 |
0.1396 |
0.1583 |
0.7959 |
2.35 |
32000 |
0.1389 |
0.1569 |
0.7835 |
2.42 |
33000 |
0.1362 |
0.1545 |
0.7959 |
2.49 |
34000 |
0.1355 |
0.1531 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令
- 在
mozilla - foundation/common_voice_8_0
数据集的 test
分割上进行评估
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset mozilla-foundation/common_voice_8_0 --config de --split test --log_outputs
- 在测试开发数据上进行评估
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📄 许可证
本模型使用 Apache - 2.0 许可证。
🔍 模型指标
任务 |
数据集 |
测试词错误率(WER) |
测试字符错误率(CER) |
自动语音识别 |
Common Voice 8 |
15.25 |
3.78 |
自动语音识别 |
Robust Speech Event - Dev Data |
35.29 |
13.83 |
自动语音识别 |
Robust Speech Event - Test Data |
36.2 |
- |