🚀 wav2vec2-xls-r-300m-gn-cv8-3
本模型是基於 facebook/wav2vec2-xls-r-300m 在 common_voice 數據集上微調得到的。它在評估集上取得了以下結果:
- 損失值:0.9517
- 字錯率(Wer):0.8542
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-300m
進行微調,在特定語音識別任務上有較好表現。
- 提供了詳細的訓練超參數和訓練結果,方便復現和參考。
📚 詳細文檔
模型描述
本模型是對 facebook/wav2vec2-xls-r-300m
進行微調後的版本,在評估集上有特定的損失值和字錯率表現。
預期用途與限制
文檔暫未提供相關信息。
訓練和評估數據
文檔暫未提供相關信息。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0001
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:16
- 優化器:Adam,β=(0.9, 0.999),ε=1e-08
- 學習率調度器類型:線性
- 學習率調度器熱身步數:100
- 訓練步數:5000
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(Wer) |
19.9125 |
5.54 |
100 |
5.4279 |
1.0 |
3.8031 |
11.11 |
200 |
3.3070 |
1.0 |
3.3783 |
16.65 |
300 |
3.2450 |
1.0 |
3.3472 |
22.22 |
400 |
3.2424 |
1.0 |
3.2714 |
27.76 |
500 |
3.1100 |
1.0 |
3.2367 |
33.32 |
600 |
3.1091 |
1.0 |
3.1968 |
38.86 |
700 |
3.1013 |
1.0 |
3.2004 |
44.43 |
800 |
3.1173 |
1.0 |
3.1656 |
49.97 |
900 |
3.0682 |
1.0 |
3.1563 |
55.54 |
1000 |
3.0457 |
1.0 |
3.1356 |
61.11 |
1100 |
3.0139 |
1.0 |
3.086 |
66.65 |
1200 |
2.8108 |
1.0 |
2.954 |
72.22 |
1300 |
2.3238 |
1.0 |
2.6125 |
77.76 |
1400 |
1.6461 |
1.0 |
2.3296 |
83.32 |
1500 |
1.2834 |
0.9744 |
2.1345 |
88.86 |
1600 |
1.1091 |
0.9693 |
2.0346 |
94.43 |
1700 |
1.0273 |
0.9233 |
1.9611 |
99.97 |
1800 |
0.9642 |
0.9182 |
1.9066 |
105.54 |
1900 |
0.9590 |
0.9105 |
1.8178 |
111.11 |
2000 |
0.9679 |
0.9028 |
1.7799 |
116.65 |
2100 |
0.9007 |
0.8619 |
1.7726 |
122.22 |
2200 |
0.9689 |
0.8951 |
1.7389 |
127.76 |
2300 |
0.8876 |
0.8593 |
1.7151 |
133.32 |
2400 |
0.8716 |
0.8542 |
1.6842 |
138.86 |
2500 |
0.9536 |
0.8772 |
1.6449 |
144.43 |
2600 |
0.9296 |
0.8542 |
1.5978 |
149.97 |
2700 |
0.8895 |
0.8440 |
1.6515 |
155.54 |
2800 |
0.9162 |
0.8568 |
1.6586 |
161.11 |
2900 |
0.9039 |
0.8568 |
1.5966 |
166.65 |
3000 |
0.8627 |
0.8542 |
1.5695 |
172.22 |
3100 |
0.9549 |
0.8824 |
1.5699 |
177.76 |
3200 |
0.9332 |
0.8517 |
1.5297 |
183.32 |
3300 |
0.9163 |
0.8338 |
1.5367 |
188.86 |
3400 |
0.8822 |
0.8312 |
1.5586 |
194.43 |
3500 |
0.9217 |
0.8363 |
1.5429 |
199.97 |
3600 |
0.9564 |
0.8568 |
1.5273 |
205.54 |
3700 |
0.9508 |
0.8542 |
1.5043 |
211.11 |
3800 |
0.9374 |
0.8542 |
1.4724 |
216.65 |
3900 |
0.9622 |
0.8619 |
1.4794 |
222.22 |
4000 |
0.9550 |
0.8363 |
1.4843 |
227.76 |
4100 |
0.9577 |
0.8465 |
1.4781 |
233.32 |
4200 |
0.9543 |
0.8440 |
1.4507 |
238.86 |
4300 |
0.9553 |
0.8491 |
1.4997 |
244.43 |
4400 |
0.9728 |
0.8491 |
1.4371 |
249.97 |
4500 |
0.9543 |
0.8670 |
1.4825 |
255.54 |
4600 |
0.9636 |
0.8619 |
1.4187 |
261.11 |
4700 |
0.9609 |
0.8440 |
1.4363 |
266.65 |
4800 |
0.9567 |
0.8593 |
1.4463 |
272.22 |
4900 |
0.9581 |
0.8542 |
1.4117 |
277.76 |
5000 |
0.9517 |
0.8542 |
框架版本
- Transformers 4.16.0
- Pytorch 1.10.0+cu111
- Datasets 1.18.1
- Tokenizers 0.11.0
📄 許可證
本模型採用 Apache-2.0 許可證。
信息表格
屬性 |
詳情 |
模型類型 |
基於 facebook/wav2vec2-xls-r-300m 微調的自動語音識別模型 |
訓練數據 |
common_voice 數據集 |