🚀 wav2vec2-large-xls-r-300m-hi-d3
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - HI數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它能夠解決自動語音識別任務中的相關問題,為印地語的語音識別提供了有效的解決方案,具有一定的實用價值。
✨ 主要特性
- 支持印地語的自動語音識別。
- 基於微調的
wav2vec2 - xls - r - 300m
模型,在相關數據集上有特定的評估指標表現。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
mozilla - foundation/common_voice_7_0 |
評估結果
本模型在評估集上取得了以下結果:
- 損失值(Loss): 0.7988
- 詞錯誤率(Wer): 0.3713
評估命令
- 在
mozilla - foundation/common_voice_8_0
的測試分割集上進行評估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-d3 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs
- 在
speech - recognition - community - v2/dev_data
上進行評估:
印地語在speech - recognition - community - v2/dev_data
中不可用。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate): 0.000388
- 訓練批次大小(train_batch_size): 16
- 評估批次大小(eval_batch_size): 8
- 隨機種子(seed): 42
- 梯度累積步數(gradient_accumulation_steps): 2
- 總訓練批次大小(total_train_batch_size): 32
- 優化器(optimizer): Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型(lr_scheduler_type): 線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps): 750
- 訓練輪數(num_epochs): 50
- 混合精度訓練(mixed_precision_training): 原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
8.2826 |
1.36 |
200 |
3.5253 |
1.0 |
2.7019 |
2.72 |
400 |
1.1744 |
0.7360 |
0.7358 |
4.08 |
600 |
0.7781 |
0.5501 |
0.4942 |
5.44 |
800 |
0.7590 |
0.5345 |
0.4056 |
6.8 |
1000 |
0.6885 |
0.4776 |
0.3243 |
8.16 |
1200 |
0.7195 |
0.4861 |
0.2785 |
9.52 |
1400 |
0.7473 |
0.4930 |
0.2448 |
10.88 |
1600 |
0.7201 |
0.4574 |
0.2155 |
12.24 |
1800 |
0.7686 |
0.4648 |
0.2039 |
13.6 |
2000 |
0.7440 |
0.4624 |
0.1792 |
14.96 |
2200 |
0.7815 |
0.4658 |
0.1695 |
16.33 |
2400 |
0.7678 |
0.4557 |
0.1598 |
17.68 |
2600 |
0.7468 |
0.4393 |
0.1568 |
19.05 |
2800 |
0.7440 |
0.4422 |
0.1391 |
20.41 |
3000 |
0.7656 |
0.4317 |
0.1283 |
21.77 |
3200 |
0.7892 |
0.4299 |
0.1194 |
23.13 |
3400 |
0.7646 |
0.4192 |
0.1116 |
24.49 |
3600 |
0.8156 |
0.4330 |
0.1111 |
25.85 |
3800 |
0.7661 |
0.4322 |
0.1023 |
27.21 |
4000 |
0.7419 |
0.4276 |
0.1007 |
28.57 |
4200 |
0.8488 |
0.4245 |
0.0925 |
29.93 |
4400 |
0.8062 |
0.4070 |
0.0918 |
31.29 |
4600 |
0.8412 |
0.4218 |
0.0813 |
32.65 |
4800 |
0.8045 |
0.4087 |
0.0805 |
34.01 |
5000 |
0.8411 |
0.4113 |
0.0774 |
35.37 |
5200 |
0.7664 |
0.3943 |
0.0666 |
36.73 |
5400 |
0.8082 |
0.3939 |
0.0655 |
38.09 |
5600 |
0.7948 |
0.4000 |
0.0617 |
39.45 |
5800 |
0.8084 |
0.3932 |
0.0606 |
40.81 |
6000 |
0.8223 |
0.3841 |
0.0569 |
42.18 |
6200 |
0.7892 |
0.3832 |
0.0544 |
43.54 |
6400 |
0.8326 |
0.3834 |
0.0508 |
44.89 |
6600 |
0.7952 |
0.3774 |
0.0492 |
46.26 |
6800 |
0.7923 |
0.3756 |
0.0459 |
47.62 |
7000 |
0.7925 |
0.3701 |
0.0423 |
48.98 |
7200 |
0.7988 |
0.3713 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.0 + cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 許可證
本模型採用Apache 2.0許可證。