🚀 wav2vec2-xls-r-300m-ca
本模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla和parlament_parla數據集上對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在評估集(針對這三個數據集)上取得了以下結果:
- 損失:0.2472
- 詞錯誤率(Wer):0.1499
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-300m
進行微調,適用於加泰羅尼亞語的自動語音識別任務。
- 在多個數據集上進行訓練和評估,具有較好的性能表現。
📚 詳細文檔
模型描述
請查看原始的facebook/wav2vec2-xls-r-1b模型卡片。這只是該模型的微調版本。
預期用途和限制
與任何基於眾包數據訓練的模型一樣,該模型可能會體現出用於訓練的數據和模型的偏差和特性。此外,由於這是一個語音識別模型,對於加泰羅尼亞語中一些資源較少的方言,其性能可能會有所下降。
訓練和評估數據
更多信息待補充。
訓練過程
數據經過預處理,去除了不在加泰羅尼亞語字母表中的字符。此外,使用@ccoreilly提供的代碼將數字進行了口語化處理,該代碼可以在text/
文件夾中找到,也可以在此處查看。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:7.5e - 05
- 訓練批次大小:32
- 評估批次大小:32
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:128
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:2000
- 訓練輪數:18.0
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
請查看Tensorboard標籤頁,以查看訓練過程和評估結果。該模型在訓練過程中對每個數據集的測試分割進行了評估。
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
6.2099 |
0.09 |
500 |
3.4125 |
1.0 |
2.9961 |
0.18 |
1000 |
2.9224 |
1.0 |
2.2147 |
0.26 |
1500 |
0.6521 |
0.5568 |
1.3017 |
0.35 |
2000 |
0.3153 |
0.2761 |
1.1196 |
0.44 |
2500 |
0.2444 |
0.2367 |
1.0712 |
0.53 |
3000 |
0.2324 |
0.2132 |
1.052 |
0.62 |
3500 |
0.2173 |
0.2032 |
1.2813 |
2.13 |
4000 |
0.3326 |
0.2099 |
1.2365 |
2.4 |
4500 |
0.3224 |
0.2003 |
1.2193 |
2.66 |
5000 |
0.3198 |
0.1957 |
1.2072 |
2.93 |
5500 |
0.3063 |
0.1933 |
1.213 |
3.2 |
6000 |
0.3051 |
0.1980 |
1.2074 |
3.46 |
6500 |
0.3012 |
0.1879 |
1.1918 |
3.73 |
7000 |
0.2947 |
0.1829 |
1.1893 |
4.0 |
7500 |
0.2895 |
0.1807 |
1.1751 |
4.26 |
8000 |
0.2878 |
0.1776 |
1.1628 |
4.53 |
8500 |
0.2835 |
0.1731 |
1.1577 |
4.79 |
9000 |
0.2816 |
0.1761 |
1.1448 |
5.06 |
9500 |
0.2757 |
0.1740 |
1.1407 |
5.33 |
10000 |
0.2768 |
0.1798 |
1.1401 |
5.59 |
10500 |
0.2780 |
0.1816 |
1.1333 |
5.86 |
11000 |
0.2748 |
0.1750 |
1.1571 |
6.13 |
11500 |
0.2808 |
0.1708 |
1.1505 |
6.39 |
12000 |
0.2726 |
0.1692 |
1.1519 |
6.66 |
12500 |
0.2749 |
0.1654 |
1.136 |
6.93 |
13000 |
0.2765 |
0.1643 |
1.1326 |
7.19 |
13500 |
0.2706 |
0.1668 |
1.1342 |
7.46 |
14000 |
0.2665 |
0.1638 |
1.1286 |
7.72 |
14500 |
0.2669 |
0.1636 |
1.1243 |
7.99 |
15000 |
0.2619 |
0.1623 |
1.1173 |
8.26 |
15500 |
0.2652 |
0.1604 |
1.1129 |
8.52 |
16000 |
0.2610 |
0.1598 |
1.1091 |
8.79 |
16500 |
0.2608 |
0.1584 |
1.1053 |
9.06 |
17000 |
0.2633 |
0.1664 |
1.1004 |
9.32 |
17500 |
0.2594 |
0.1662 |
1.0995 |
9.59 |
18000 |
0.2623 |
0.1569 |
1.0964 |
9.86 |
18500 |
0.2624 |
0.1597 |
1.09 |
10.12 |
19000 |
0.2577 |
0.1578 |
1.089 |
10.39 |
19500 |
0.2574 |
0.1531 |
1.0864 |
10.66 |
20000 |
0.2556 |
0.1546 |
1.0806 |
10.92 |
20500 |
0.2548 |
0.1583 |
1.0842 |
11.19 |
21000 |
0.2550 |
0.1542 |
1.0805 |
11.45 |
21500 |
0.2561 |
0.1524 |
1.0722 |
11.72 |
22000 |
0.2540 |
0.1566 |
1.0763 |
11.99 |
22500 |
0.2549 |
0.1572 |
1.0835 |
12.25 |
23000 |
0.2586 |
0.1521 |
1.0883 |
12.52 |
23500 |
0.2583 |
0.1519 |
1.0888 |
12.79 |
24000 |
0.2551 |
0.1582 |
1.0933 |
13.05 |
24500 |
0.2628 |
0.1537 |
1.0799 |
13.32 |
25000 |
0.2600 |
0.1508 |
1.0804 |
13.59 |
25500 |
0.2620 |
0.1475 |
1.0814 |
13.85 |
26000 |
0.2537 |
0.1517 |
1.0693 |
14.12 |
26500 |
0.2560 |
0.1542 |
1.0724 |
14.38 |
27000 |
0.2540 |
0.1574 |
1.0704 |
14.65 |
27500 |
0.2548 |
0.1626 |
1.0729 |
14.92 |
28000 |
0.2548 |
0.1601 |
1.0724 |
15.18 |
28500 |
0.2511 |
0.1512 |
1.0655 |
15.45 |
29000 |
0.2498 |
0.1490 |
1.0608 |
15.98 |
30000 |
0.2487 |
0.1481 |
1.0541 |
16.52 |
31000 |
0.2468 |
0.1504 |
1.0584 |
17.05 |
32000 |
0.2467 |
0.1493 |
1.0507 |
17.58 |
33000 |
0.2481 |
0.1517 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 許可證
本模型使用Apache 2.0許可證。
致謝
感謝@ccoreilly和@gullabi,他們貢獻了自己的資源和知識,使得該模型得以實現。
模型指標信息表格
屬性 |
詳情 |
模型類型 |
基於facebook/wav2vec2-xls-r-300m 微調的自動語音識別模型 |
訓練數據 |
MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - CA、collectivat/tv3_parla 、projecte-aina/parlament_parla |
評估指標(部分數據集) |
- mozilla-foundation/common_voice_8_0 ca :測試詞錯誤率(WER)13.170091241317552,測試字符錯誤率(CER)3.356726205534543 - projecte-aina/parlament_parla ca :測試詞錯誤率(WER)8.048005647723261,測試字符錯誤率(CER)2.240912911020065 - collectivat/tv3_parla ca :測試詞錯誤率(WER)23.320629787889285,測試字符錯誤率(CER)10.439216202089989 - speech-recognition-community-v2/dev_data ca :測試詞錯誤率(WER)31.99671115046487,測試字符錯誤率(CER)15.820020687277325 - Robust Speech Event - Test Data :測試詞錯誤率(WER)22.04 |