🚀 wav2vec2-large-xls-r-300m-bg-v1 語音識別模型
本模型基於Transformer架構,是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BG數據集上對facebook/wav2vec2-xls-r-300m進行微調後的版本,可用於保加利亞語的自動語音識別任務,在相關評估集上有良好表現。
✨ 主要特性
- 多數據集適配:可在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2等數據集上進行評估。
- 明確的評估指標:在評估集上提供了Loss、Wer、CER等指標數據,方便衡量模型性能。
- 詳細的訓練參數:公開了訓練時使用的超參數,如學習率、批次大小等,便於復現訓練過程。
📚 詳細文檔
模型信息
屬性 |
詳情 |
支持語言 |
保加利亞語(bg) |
許可證 |
Apache - 2.0 |
模型類型 |
自動語音識別(automatic - speech - recognition) |
訓練數據集 |
mozilla - foundation/common_voice_8_0 |
評估結果
本模型在不同數據集上的評估結果如下:
- Common Voice 8數據集(保加利亞語)
- Test WER:0.4709579127785184
- Test CER:0.10205125354383235
- Robust Speech Event - Dev Data數據集(保加利亞語)
- Test WER:0.7053128872366791
- Test CER:0.210804311998487
- Robust Speech Event - Test Data數據集(保加利亞語)
在評估集上的其他結果:
評估命令
在mozilla - foundation/common_voice_8_0測試集上評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs
在speech - recognition - community - v2/dev_data數據集上評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1
訓練超參數
- 學習率(learning_rate):7e - 05
- 訓練批次大小(train_batch_size):32
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 優化器(optimizer):Adam,betas = (0.9, 0.999),epsilon = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):50.0
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失(Training Loss) |
輪數(Epoch) |
步數(Step) |
驗證損失(Validation Loss) |
詞錯誤率(Wer) |
4.3711 |
2.61 |
300 |
4.3122 |
1.0 |
3.1653 |
5.22 |
600 |
3.1156 |
1.0 |
2.8904 |
7.83 |
900 |
2.8421 |
0.9918 |
0.9207 |
10.43 |
1200 |
0.9895 |
0.8689 |
0.6384 |
13.04 |
1500 |
0.6994 |
0.7700 |
0.5215 |
15.65 |
1800 |
0.5628 |
0.6443 |
0.4573 |
18.26 |
2100 |
0.5316 |
0.6174 |
0.3875 |
20.87 |
2400 |
0.4932 |
0.5779 |
0.3562 |
23.48 |
2700 |
0.4972 |
0.5475 |
0.3218 |
26.09 |
3000 |
0.4895 |
0.5219 |
0.2954 |
28.7 |
3300 |
0.5226 |
0.5192 |
0.287 |
31.3 |
3600 |
0.4957 |
0.5146 |
0.2587 |
33.91 |
3900 |
0.4944 |
0.4893 |
0.2496 |
36.52 |
4200 |
0.4976 |
0.4895 |
0.2365 |
39.13 |
4500 |
0.5185 |
0.4819 |
0.2264 |
41.74 |
4800 |
0.5152 |
0.4776 |
0.2224 |
44.35 |
5100 |
0.5031 |
0.4746 |
0.2096 |
46.96 |
5400 |
0.5062 |
0.4708 |
0.2038 |
49.57 |
5700 |
0.5217 |
0.4698 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 許可證
本模型使用Apache - 2.0許可證。