🚀 wav2vec2-large-xls-r-300m-hi-cv8
該模型是基於MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI數據集對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在自動語音識別任務中表現出色,能有效處理印地語語音數據,為語音識別領域提供了強大的工具。
✨ 主要特性
- 多任務支持:支持自動語音識別任務。
- 數據集適配:基於MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI數據集進行微調,適用於印地語語音識別。
- 評估指標豐富:提供了測試字錯誤率(WER)和測試字符錯誤率(CER)等評估指標。
📚 詳細文檔
評估結果
該模型在評估集上取得了以下結果:
- 損失值(Loss):0.6510
- 字錯誤率(Wer):0.3179
評估命令
- 在mozilla-foundation/common_voice_8_0測試分割集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs
- 在speech-recognition-community-v2/dev_data上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset speech-recognition-community-v2/dev_data --config hi --split validation --chunk_length_s 10 --stride_length_s 1
⚠️ 重要提示
印地語在speech-recognition-community-v2/dev_data數據集中未找到。
訓練超參數
訓練過程中使用了以下超參數:
屬性 |
詳情 |
訓練批次大小(train_batch_size) |
16 |
評估批次大小(eval_batch_size) |
8 |
隨機種子(seed) |
42 |
梯度累積步數(gradient_accumulation_steps) |
2 |
總訓練批次大小(total_train_batch_size) |
32 |
優化器(optimizer) |
Adam(betas=(0.9,0.999),epsilon=1e-08) |
學習率調度器類型(lr_scheduler_type) |
線性 |
學習率調度器熱身步數(lr_scheduler_warmup_steps) |
2000 |
訓練輪數(num_epochs) |
50 |
混合精度訓練(mixed_precision_training) |
原生自動混合精度(Native AMP) |
訓練結果
訓練損失(Training Loss) |
輪數(Epoch) |
步數(Step) |
驗證損失(Validation Loss) |
字錯誤率(Wer) |
12.5576 |
1.04 |
200 |
6.6594 |
1.0 |
4.4069 |
2.07 |
400 |
3.6011 |
1.0 |
3.4273 |
3.11 |
600 |
3.3370 |
1.0 |
2.1108 |
4.15 |
800 |
1.0641 |
0.6562 |
0.8817 |
5.18 |
1000 |
0.7178 |
0.5172 |
0.6508 |
6.22 |
1200 |
0.6612 |
0.4839 |
0.5524 |
7.25 |
1400 |
0.6458 |
0.4889 |
0.4992 |
8.29 |
1600 |
0.5791 |
0.4382 |
0.4669 |
9.33 |
1800 |
0.6039 |
0.4352 |
0.4441 |
10.36 |
2000 |
0.6276 |
0.4297 |
0.4172 |
11.4 |
2200 |
0.6183 |
0.4474 |
0.3872 |
12.44 |
2400 |
0.5886 |
0.4231 |
0.3692 |
13.47 |
2600 |
0.6448 |
0.4399 |
0.3385 |
14.51 |
2800 |
0.6344 |
0.4075 |
0.3246 |
15.54 |
3000 |
0.5896 |
0.4087 |
0.3026 |
16.58 |
3200 |
0.6158 |
0.4016 |
0.284 |
17.62 |
3400 |
0.6038 |
0.3906 |
0.2682 |
18.65 |
3600 |
0.6165 |
0.3900 |
0.2577 |
19.69 |
3800 |
0.5754 |
0.3805 |
0.2509 |
20.73 |
4000 |
0.6028 |
0.3925 |
0.2426 |
21.76 |
4200 |
0.6335 |
0.4138 |
0.2346 |
22.8 |
4400 |
0.6128 |
0.3870 |
0.2205 |
23.83 |
4600 |
0.6223 |
0.3831 |
0.2104 |
24.87 |
4800 |
0.6122 |
0.3781 |
0.1992 |
25.91 |
5000 |
0.6467 |
0.3792 |
0.1916 |
26.94 |
5200 |
0.6277 |
0.3636 |
0.1835 |
27.98 |
5400 |
0.6317 |
0.3773 |
0.1776 |
29.02 |
5600 |
0.6124 |
0.3614 |
0.1751 |
30.05 |
5800 |
0.6475 |
0.3628 |
0.1662 |
31.09 |
6000 |
0.6266 |
0.3504 |
0.1584 |
32.12 |
6200 |
0.6347 |
0.3532 |
0.1494 |
33.16 |
6400 |
0.6636 |
0.3491 |
0.1457 |
34.2 |
6600 |
0.6334 |
0.3507 |
0.1427 |
35.23 |
6800 |
0.6397 |
0.3442 |
0.1397 |
36.27 |
7000 |
0.6468 |
0.3496 |
0.1283 |
37.31 |
7200 |
0.6291 |
0.3416 |
0.1255 |
38.34 |
7400 |
0.6652 |
0.3461 |
0.1195 |
39.38 |
7600 |
0.6587 |
0.3342 |
0.1169 |
40.41 |
7800 |
0.6478 |
0.3319 |
0.1126 |
41.45 |
8000 |
0.6280 |
0.3291 |
0.1112 |
42.49 |
8200 |
0.6434 |
0.3290 |
0.1069 |
43.52 |
8400 |
0.6542 |
0.3268 |
0.1027 |
44.56 |
8600 |
0.6536 |
0.3239 |
0.0993 |
45.6 |
8800 |
0.6622 |
0.3257 |
0.0973 |
46.63 |
9000 |
0.6572 |
0.3192 |
0.0911 |
47.67 |
9200 |
0.6522 |
0.3175 |
0.0897 |
48.7 |
9400 |
0.6521 |
0.3200 |
0.0905 |
49.74 |
9600 |
0.6510 |
0.3179 |
框架版本
- Transformers:4.16.2
- Pytorch:1.10.0+cu111
- Datasets:1.18.3
- Tokenizers:0.11.0
📄 許可證
本項目採用Apache-2.0許可證。