🚀 wav2vec2-large-xls-r-300m-pa-IN-dx1 模型
該模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - PA - IN數據集對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在自動語音識別任務中表現出色,為旁遮普語(pa - IN)的語音識別提供了有效的解決方案。
📦 模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
mozilla - foundation/common_voice_8_0 |
許可證 |
Apache - 2.0 |
標籤 |
automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、pa - IN、robust - speech - event、hf - asr - leaderboard |
📚 詳細文檔
評估結果
該模型在評估集上取得了以下結果:
- 損失值(Loss): 1.0855
- 詞錯誤率(Wer): 0.4755
評估命令
- 在mozilla - foundation/common_voice_8_0測試集上評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-pa-IN-dx1 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上評估
旁遮普語在speech - recognition - community - v2/dev_data中不可用。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate): 0.0003
- 訓練批次大小(train_batch_size): 16
- 評估批次大小(eval_batch_size): 8
- 隨機種子(seed): 42
- 優化器(optimizer): Adam(betas=(0.9, 0.999),epsilon = 1e - 08)
- 學習率調度器類型(lr_scheduler_type): 線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps): 1200
- 訓練輪數(num_epochs): 100.0
- 混合精度訓練(mixed_precision_training): 原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率 |
3.4607 |
9.26 |
500 |
2.7746 |
1.0416 |
0.3442 |
18.52 |
1000 |
0.9114 |
0.5911 |
0.2213 |
27.78 |
1500 |
0.9687 |
0.5751 |
0.1242 |
37.04 |
2000 |
1.0204 |
0.5461 |
0.0998 |
46.3 |
2500 |
1.0250 |
0.5233 |
0.0727 |
55.56 |
3000 |
1.1072 |
0.5382 |
0.0605 |
64.81 |
3500 |
1.0588 |
0.5073 |
0.0458 |
74.07 |
4000 |
1.0818 |
0.5069 |
0.0338 |
83.33 |
4500 |
1.0948 |
0.5108 |
0.0223 |
92.59 |
5000 |
1.0986 |
0.4775 |
框架版本
- Transformers: 4.17.0.dev0
- Pytorch: 1.10.2+cu102
- Datasets: 1.18.2.dev0
- Tokenizers: 0.11.0