🚀 wav2vec2-xls-r-300m-ca
本模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla和parlament_parla数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在评估集(针对这三个数据集)上取得了以下结果:
- 损失:0.2472
- 词错误率(Wer):0.1499
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2-xls-r-300m
进行微调,适用于加泰罗尼亚语的自动语音识别任务。
- 在多个数据集上进行训练和评估,具有较好的性能表现。
📚 详细文档
模型描述
请查看原始的facebook/wav2vec2-xls-r-1b模型卡片。这只是该模型的微调版本。
预期用途和限制
与任何基于众包数据训练的模型一样,该模型可能会体现出用于训练的数据和模型的偏差和特性。此外,由于这是一个语音识别模型,对于加泰罗尼亚语中一些资源较少的方言,其性能可能会有所下降。
训练和评估数据
更多信息待补充。
训练过程
数据经过预处理,去除了不在加泰罗尼亚语字母表中的字符。此外,使用@ccoreilly提供的代码将数字进行了口语化处理,该代码可以在text/
文件夹中找到,也可以在此处查看。
训练超参数
训练期间使用了以下超参数:
- 学习率:7.5e - 05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:128
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:2000
- 训练轮数:18.0
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
请查看Tensorboard标签页,以查看训练过程和评估结果。该模型在训练过程中对每个数据集的测试分割进行了评估。
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
6.2099 |
0.09 |
500 |
3.4125 |
1.0 |
2.9961 |
0.18 |
1000 |
2.9224 |
1.0 |
2.2147 |
0.26 |
1500 |
0.6521 |
0.5568 |
1.3017 |
0.35 |
2000 |
0.3153 |
0.2761 |
1.1196 |
0.44 |
2500 |
0.2444 |
0.2367 |
1.0712 |
0.53 |
3000 |
0.2324 |
0.2132 |
1.052 |
0.62 |
3500 |
0.2173 |
0.2032 |
1.2813 |
2.13 |
4000 |
0.3326 |
0.2099 |
1.2365 |
2.4 |
4500 |
0.3224 |
0.2003 |
1.2193 |
2.66 |
5000 |
0.3198 |
0.1957 |
1.2072 |
2.93 |
5500 |
0.3063 |
0.1933 |
1.213 |
3.2 |
6000 |
0.3051 |
0.1980 |
1.2074 |
3.46 |
6500 |
0.3012 |
0.1879 |
1.1918 |
3.73 |
7000 |
0.2947 |
0.1829 |
1.1893 |
4.0 |
7500 |
0.2895 |
0.1807 |
1.1751 |
4.26 |
8000 |
0.2878 |
0.1776 |
1.1628 |
4.53 |
8500 |
0.2835 |
0.1731 |
1.1577 |
4.79 |
9000 |
0.2816 |
0.1761 |
1.1448 |
5.06 |
9500 |
0.2757 |
0.1740 |
1.1407 |
5.33 |
10000 |
0.2768 |
0.1798 |
1.1401 |
5.59 |
10500 |
0.2780 |
0.1816 |
1.1333 |
5.86 |
11000 |
0.2748 |
0.1750 |
1.1571 |
6.13 |
11500 |
0.2808 |
0.1708 |
1.1505 |
6.39 |
12000 |
0.2726 |
0.1692 |
1.1519 |
6.66 |
12500 |
0.2749 |
0.1654 |
1.136 |
6.93 |
13000 |
0.2765 |
0.1643 |
1.1326 |
7.19 |
13500 |
0.2706 |
0.1668 |
1.1342 |
7.46 |
14000 |
0.2665 |
0.1638 |
1.1286 |
7.72 |
14500 |
0.2669 |
0.1636 |
1.1243 |
7.99 |
15000 |
0.2619 |
0.1623 |
1.1173 |
8.26 |
15500 |
0.2652 |
0.1604 |
1.1129 |
8.52 |
16000 |
0.2610 |
0.1598 |
1.1091 |
8.79 |
16500 |
0.2608 |
0.1584 |
1.1053 |
9.06 |
17000 |
0.2633 |
0.1664 |
1.1004 |
9.32 |
17500 |
0.2594 |
0.1662 |
1.0995 |
9.59 |
18000 |
0.2623 |
0.1569 |
1.0964 |
9.86 |
18500 |
0.2624 |
0.1597 |
1.09 |
10.12 |
19000 |
0.2577 |
0.1578 |
1.089 |
10.39 |
19500 |
0.2574 |
0.1531 |
1.0864 |
10.66 |
20000 |
0.2556 |
0.1546 |
1.0806 |
10.92 |
20500 |
0.2548 |
0.1583 |
1.0842 |
11.19 |
21000 |
0.2550 |
0.1542 |
1.0805 |
11.45 |
21500 |
0.2561 |
0.1524 |
1.0722 |
11.72 |
22000 |
0.2540 |
0.1566 |
1.0763 |
11.99 |
22500 |
0.2549 |
0.1572 |
1.0835 |
12.25 |
23000 |
0.2586 |
0.1521 |
1.0883 |
12.52 |
23500 |
0.2583 |
0.1519 |
1.0888 |
12.79 |
24000 |
0.2551 |
0.1582 |
1.0933 |
13.05 |
24500 |
0.2628 |
0.1537 |
1.0799 |
13.32 |
25000 |
0.2600 |
0.1508 |
1.0804 |
13.59 |
25500 |
0.2620 |
0.1475 |
1.0814 |
13.85 |
26000 |
0.2537 |
0.1517 |
1.0693 |
14.12 |
26500 |
0.2560 |
0.1542 |
1.0724 |
14.38 |
27000 |
0.2540 |
0.1574 |
1.0704 |
14.65 |
27500 |
0.2548 |
0.1626 |
1.0729 |
14.92 |
28000 |
0.2548 |
0.1601 |
1.0724 |
15.18 |
28500 |
0.2511 |
0.1512 |
1.0655 |
15.45 |
29000 |
0.2498 |
0.1490 |
1.0608 |
15.98 |
30000 |
0.2487 |
0.1481 |
1.0541 |
16.52 |
31000 |
0.2468 |
0.1504 |
1.0584 |
17.05 |
32000 |
0.2467 |
0.1493 |
1.0507 |
17.58 |
33000 |
0.2481 |
0.1517 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 许可证
本模型使用Apache 2.0许可证。
致谢
感谢@ccoreilly和@gullabi,他们贡献了自己的资源和知识,使得该模型得以实现。
模型指标信息表格
属性 |
详情 |
模型类型 |
基于facebook/wav2vec2-xls-r-300m 微调的自动语音识别模型 |
训练数据 |
MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - CA、collectivat/tv3_parla 、projecte-aina/parlament_parla |
评估指标(部分数据集) |
- mozilla-foundation/common_voice_8_0 ca :测试词错误率(WER)13.170091241317552,测试字符错误率(CER)3.356726205534543 - projecte-aina/parlament_parla ca :测试词错误率(WER)8.048005647723261,测试字符错误率(CER)2.240912911020065 - collectivat/tv3_parla ca :测试词错误率(WER)23.320629787889285,测试字符错误率(CER)10.439216202089989 - speech-recognition-community-v2/dev_data ca :测试词错误率(WER)31.99671115046487,测试字符错误率(CER)15.820020687277325 - Robust Speech Event - Test Data :测试词错误率(WER)22.04 |