🚀 wav2vec2-large-xls-r-300m-sr-v4
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在自動語音識別任務中表現出色,能夠有效處理語音數據,將語音準確轉換為文本。
🚀 快速開始
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下結果:
- 損失值:0.5570
- 詞錯誤率(Wer):0.3038
💻 使用示例
基礎用法
以下是在不同數據集上進行評估的命令示例:
1. 在mozilla - foundation/common_voice_8_0的測試分割集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs
2. 在speech - recognition - community - v2/dev_data上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1
🔧 技術細節
訓練超參數
在訓練過程中使用了以下超參數:
- 學習率:0.0003
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:800
- 訓練輪數:200
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
8.2934 |
7.5 |
300 |
2.9777 |
0.9995 |
1.5049 |
15.0 |
600 |
0.5036 |
0.4806 |
0.3263 |
22.5 |
900 |
0.5822 |
0.4055 |
0.2008 |
30.0 |
1200 |
0.5609 |
0.4032 |
0.1543 |
37.5 |
1500 |
0.5203 |
0.3710 |
0.1158 |
45.0 |
1800 |
0.6458 |
0.3985 |
0.0997 |
52.5 |
2100 |
0.6227 |
0.4013 |
0.0834 |
60.0 |
2400 |
0.6048 |
0.3836 |
0.0665 |
67.5 |
2700 |
0.6197 |
0.3686 |
0.0602 |
75.0 |
3000 |
0.5418 |
0.3453 |
0.0524 |
82.5 |
3300 |
0.5310 |
0.3486 |
0.0445 |
90.0 |
3600 |
0.5599 |
0.3374 |
0.0406 |
97.5 |
3900 |
0.5958 |
0.3327 |
0.0358 |
105.0 |
4200 |
0.6017 |
0.3262 |
0.0302 |
112.5 |
4500 |
0.5613 |
0.3248 |
0.0285 |
120.0 |
4800 |
0.5659 |
0.3462 |
0.0213 |
127.5 |
5100 |
0.5568 |
0.3206 |
0.0215 |
135.0 |
5400 |
0.6524 |
0.3472 |
0.0162 |
142.5 |
5700 |
0.6223 |
0.3458 |
0.0137 |
150.0 |
6000 |
0.6625 |
0.3313 |
0.0114 |
157.5 |
6300 |
0.5739 |
0.3336 |
0.0101 |
165.0 |
6600 |
0.5906 |
0.3285 |
0.008 |
172.5 |
6900 |
0.5982 |
0.3112 |
0.0076 |
180.0 |
7200 |
0.5399 |
0.3094 |
0.0071 |
187.5 |
7500 |
0.5387 |
0.2991 |
0.0057 |
195.0 |
7800 |
0.5570 |
0.3038 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
📄 許可證
本模型採用Apache - 2.0許可證。