🚀 XLS-R-300M維吾爾語CV7
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - UG數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下成果:
- 損失值:0.1772
- 詞錯誤率(Wer):0.2589
✨ 主要特性
模型描述
關於模型架構的描述,請參考facebook/wav2vec2 - xls - r - 300m。
該模型的詞彙表由維吾爾語波斯 - 阿拉伯字母組成,且去除了標點符號。
預期用途與限制
此模型有望在低保真度的應用場景中發揮一定作用,例如:
該模型的可靠性不足以替代用於無障礙目的的即時字幕,並且使用時不應侵犯Common Voice數據集貢獻者或其他說話者的隱私。
訓練和評估數據
使用Common Voice官方分割的train
和dev
組合作為訓練數據。官方的test
分割既用作驗證數據,也用於最終評估。
訓練過程
在維吾爾語CV7示例句子上微調最終的CTC/LM層時,XLS - R模型的特徵提取層被凍結。使用了一個逐步變化的學習率,初始熱身階段為2000步,最大值為0.0001,在剩餘的18500步(100個epoch)中逐漸冷卻至0。
訓練超參數
訓練期間使用了以下超參數:
屬性 |
詳情 |
學習率(learning_rate) |
0.0001 |
訓練批次大小(train_batch_size) |
8 |
評估批次大小(eval_batch_size) |
8 |
隨機種子(seed) |
42 |
梯度累積步數(gradient_accumulation_steps) |
4 |
總訓練批次大小(total_train_batch_size) |
32 |
優化器(optimizer) |
Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08) |
學習率調度器類型(lr_scheduler_type) |
線性 |
學習率調度器熱身步數(lr_scheduler_warmup_steps) |
2000 |
訓練輪數(num_epochs) |
100.0 |
混合精度訓練(mixed_precision_training) |
原生自動混合精度(Native AMP) |
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
3.3043 |
2.73 |
500 |
3.2415 |
1.0 |
3.0482 |
5.46 |
1000 |
2.9591 |
1.0 |
1.4767 |
8.2 |
1500 |
0.4779 |
0.5777 |
1.3152 |
10.93 |
2000 |
0.3697 |
0.4938 |
1.2246 |
13.66 |
2500 |
0.3084 |
0.4459 |
1.1781 |
16.39 |
3000 |
0.2842 |
0.4154 |
1.1351 |
19.13 |
3500 |
0.2615 |
0.3929 |
1.1052 |
21.86 |
4000 |
0.2462 |
0.3747 |
1.0711 |
24.59 |
4500 |
0.2366 |
0.3652 |
1.035 |
27.32 |
5000 |
0.2268 |
0.3557 |
1.0277 |
30.05 |
5500 |
0.2243 |
0.3450 |
1.002 |
32.79 |
6000 |
0.2204 |
0.3389 |
0.9837 |
35.52 |
6500 |
0.2156 |
0.3349 |
0.9773 |
38.25 |
7000 |
0.2127 |
0.3289 |
0.9807 |
40.98 |
7500 |
0.2142 |
0.3274 |
0.9582 |
43.72 |
8000 |
0.2004 |
0.3142 |
0.9548 |
46.45 |
8500 |
0.2022 |
0.3050 |
0.9251 |
49.18 |
9000 |
0.2019 |
0.3035 |
0.9103 |
51.91 |
9500 |
0.1964 |
0.3021 |
0.915 |
54.64 |
10000 |
0.1970 |
0.3032 |
0.8962 |
57.38 |
10500 |
0.2007 |
0.3046 |
0.8729 |
60.11 |
11000 |
0.1967 |
0.2942 |
0.8744 |
62.84 |
11500 |
0.1952 |
0.2885 |
0.874 |
65.57 |
12000 |
0.1894 |
0.2895 |
0.8457 |
68.31 |
12500 |
0.1895 |
0.2828 |
0.8519 |
71.04 |
13000 |
0.1912 |
0.2875 |
0.8301 |
73.77 |
13500 |
0.1878 |
0.2760 |
0.8226 |
76.5 |
14000 |
0.1808 |
0.2701 |
0.8071 |
79.23 |
14500 |
0.1849 |
0.2741 |
0.7999 |
81.97 |
15000 |
0.1808 |
0.2717 |
0.7947 |
84.7 |
15500 |
0.1821 |
0.2716 |
0.7783 |
87.43 |
16000 |
0.1824 |
0.2661 |
0.7729 |
90.16 |
16500 |
0.1773 |
0.2639 |
0.7759 |
92.9 |
17000 |
0.1767 |
0.2629 |
0.7713 |
95.63 |
17500 |
0.1780 |
0.2621 |
0.7628 |
98.36 |
18000 |
0.1773 |
0.2594 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 許可證
本項目採用Apache - 2.0許可證。