🚀 XLS - R - 300M - 英文
本模型是基於自動語音識別技術,在librispeech_asr數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本,可用於英文語音識別任務,在多個語音識別數據集上進行了評估並取得了一定的指標成績。
📚 詳細文檔
模型描述
該模型是在librispeech_asr數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調得到的。它在評估集上取得了以下結果:
- 損失值(Loss):0.1444
- 詞錯誤率(Wer):0.1167
預期用途和限制
文檔中未提供該模型預期用途和限制的詳細信息。
訓練和評估數據
文檔中未提供訓練和評估數據的詳細信息。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):5e - 05
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):1000
- 訓練輪數(num_epochs):50
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
2.9365 |
4.17 |
500 |
2.9398 |
0.9999 |
1.5444 |
8.33 |
1000 |
0.5947 |
0.4289 |
1.1367 |
12.5 |
1500 |
0.2751 |
0.2366 |
0.9972 |
16.66 |
2000 |
0.2032 |
0.1797 |
0.9118 |
20.83 |
2500 |
0.1786 |
0.1479 |
0.8664 |
24.99 |
3000 |
0.1641 |
0.1408 |
0.8251 |
29.17 |
3500 |
0.1537 |
0.1267 |
0.793 |
33.33 |
4000 |
0.1525 |
0.1244 |
0.785 |
37.5 |
4500 |
0.1470 |
0.1184 |
0.7612 |
41.66 |
5000 |
0.1446 |
0.1177 |
0.7478 |
45.83 |
5500 |
0.1449 |
0.1176 |
0.7443 |
49.99 |
6000 |
0.1444 |
0.1167 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2 + cu102
- Datasets:1.18.2.dev0
- Tokenizers:0.11.0
📄 許可證
本模型採用Apache - 2.0許可證。
📊 模型指標
任務 |
數據集 |
指標 |
值 |
自動語音識別 |
LibriSpeech (clean) |
測試詞錯誤率(Test WER) |
12.29 |
自動語音識別 |
LibriSpeech (clean) |
測試字符錯誤率(Test CER) |
3.34 |
自動語音識別 |
Robust Speech Event - Dev Data |
驗證詞錯誤率(Validation WER) |
36.75 |
自動語音識別 |
Robust Speech Event - Dev Data |
驗證字符錯誤率(Validation CER) |
14.83 |
自動語音識別 |
Common Voice 8.0 |
測試詞錯誤率(Test WER) |
37.81 |
自動語音識別 |
Robust Speech Event - Test Data |
測試詞錯誤率(Test WER) |
38.8 |