🚀 XLS-R-300M Uzbek CV8
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UZ數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在驗證集上取得了以下成果:
- 損失率:0.3063
- 詞錯誤率(Wer):0.3852
- 字符錯誤率(Cer):0.0777
✨ 主要特性
- 標籤信息:具備自動語音識別、從訓練器生成、HF語音識別排行榜、基於Mozilla基金會Common Voice 8.0數據集、魯棒語音事件等相關標籤。
- 數據集:使用了Mozilla基金會的Common Voice 8.0數據集。
- 基礎模型:基於facebook的wav2vec2 - xls - r - 300m模型。
- 評估指標:在測試集上,使用語言模型(LM)時,詞錯誤率(Wer)為15.065,字符錯誤率(Cer)為3.077;不使用語言模型時,詞錯誤率為32.88,字符錯誤率為6.53。
📚 詳細文檔
模型描述
關於模型架構的描述,請參考facebook/wav2vec2 - xls - r - 300m。
模型詞彙表由烏茲別克語現代拉丁字母組成,且去除了標點符號。需要注意的是,字符 <‘> 和 <’> 不算作標點符號,因為 <‘> 用於修飾 <o> 和 <g>,而 <’> 表示聲門塞音或長元音。
解碼器使用了基於Common Voice文本構建的kenlm語言模型。
預期用途與侷限性
該模型預計在低保真度用例中具有一定的實用性,例如:
該模型不夠可靠,不能作為無障礙即時字幕的替代品,並且不應以侵犯Common Voice數據集貢獻者或其他說話者隱私的方式使用。
訓練和評估數據
- 訓練數據:使用了
train
公共語音官方分割集的50%。
- 驗證數據:使用了官方
dev
分割集的50%。
- 最終評估數據:無語言模型的模型在完整的
test
集上進行最終評估,而有語言模型的模型僅在test
集中的500個示例上進行評估。
kenlm語言模型是從訓練集和其他數據集分割的目標句子編譯而來的。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:3e - 05
- 訓練批次大小:32
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:128
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:500
- 訓練輪數:100.0
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
訓練損失率 |
輪數 |
步數 |
驗證損失率 |
詞錯誤率(Wer) |
字符錯誤率(Cer) |
3.1401 |
3.25 |
500 |
3.1146 |
1.0 |
1.0 |
2.7484 |
6.49 |
1000 |
2.2842 |
1.0065 |
0.7069 |
1.0899 |
9.74 |
1500 |
0.5414 |
0.6125 |
0.1351 |
0.9465 |
12.99 |
2000 |
0.4566 |
0.5635 |
0.1223 |
0.8771 |
16.23 |
2500 |
0.4212 |
0.5366 |
0.1161 |
0.8346 |
19.48 |
3000 |
0.3994 |
0.5144 |
0.1102 |
0.8127 |
22.73 |
3500 |
0.3819 |
0.4944 |
0.1051 |
0.7833 |
25.97 |
4000 |
0.3705 |
0.4798 |
0.1011 |
0.7603 |
29.22 |
4500 |
0.3661 |
0.4704 |
0.0992 |
0.7424 |
32.47 |
5000 |
0.3529 |
0.4577 |
0.0957 |
0.7251 |
35.71 |
5500 |
0.3410 |
0.4473 |
0.0928 |
0.7106 |
38.96 |
6000 |
0.3401 |
0.4428 |
0.0919 |
0.7027 |
42.21 |
6500 |
0.3355 |
0.4353 |
0.0905 |
0.6927 |
45.45 |
7000 |
0.3308 |
0.4296 |
0.0885 |
0.6828 |
48.7 |
7500 |
0.3246 |
0.4204 |
0.0863 |
0.6706 |
51.95 |
8000 |
0.3250 |
0.4233 |
0.0868 |
0.6629 |
55.19 |
8500 |
0.3264 |
0.4159 |
0.0849 |
0.6556 |
58.44 |
9000 |
0.3213 |
0.4100 |
0.0835 |
0.6484 |
61.69 |
9500 |
0.3182 |
0.4124 |
0.0837 |
0.6407 |
64.93 |
10000 |
0.3171 |
0.4050 |
0.0825 |
0.6375 |
68.18 |
10500 |
0.3150 |
0.4039 |
0.0822 |
0.6363 |
71.43 |
11000 |
0.3129 |
0.3991 |
0.0810 |
0.6307 |
74.67 |
11500 |
0.3114 |
0.3986 |
0.0807 |
0.6232 |
77.92 |
12000 |
0.3103 |
0.3895 |
0.0790 |
0.6216 |
81.17 |
12500 |
0.3086 |
0.3891 |
0.0790 |
0.6174 |
84.41 |
13000 |
0.3082 |
0.3881 |
0.0785 |
0.6196 |
87.66 |
13500 |
0.3059 |
0.3875 |
0.0782 |
0.6174 |
90.91 |
14000 |
0.3084 |
0.3862 |
0.0780 |
0.6169 |
94.16 |
14500 |
0.3070 |
0.3860 |
0.0779 |
0.6166 |
97.4 |
15000 |
0.3066 |
0.3855 |
0.0778 |
框架版本
- Transformers:4.16.2
- Pytorch:1.10.2 + cu102
- Datasets:1.18.3
- Tokenizers:0.11.0
📄 許可證
本項目採用Apache - 2.0許可證。