🚀 自動語音識別模型 - wav2vec2-xls-r-myv-a1
本模型是基於自動語音識別技術的微調模型,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYV數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調。它在評估集上取得了較好的效果,可用於自動語音識別相關任務。
📄 許可證
本模型採用Apache - 2.0許可證。
✨ 主要特性
- 多語言支持:支持Erzya語(myv)的自動語音識別。
- 多數據集驗證:在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2/dev_data等數據集上進行評估。
- 評估指標良好:在測試集上有一定的WER和CER指標表現。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型(Automatic Speech Recognition) |
訓練數據 |
mozilla - foundation/common_voice_8_0 |
評估結果
本模型在評估集上取得了以下結果:
不同數據集評估指標
數據集名稱 |
任務類型 |
測試WER |
測試CER |
Common Voice 8 |
自動語音識別 |
0.6514672686230248 |
0.17226131905088124 |
Robust Speech Event - Dev Data |
自動語音識別 |
NA |
NA |
評估命令
1. 在mozilla - foundation/common_voice_8_0測試集上評估
python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs
2. 在speech - recognition - community - v2/dev_data上評估
Erzya語言在speech - recognition - community - v2/dev_data中未找到。
訓練超參數
訓練過程中使用了以下超參數:
- learning_rate: 0.0004
- train_batch_size: 16
- eval_batch_size: 32
- seed: 42
- optimizer: Adam with betas=(0.9, 0.999) and epsilon = 1e - 08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 800
- num_epochs: 200.0
- mixed_precision_training: Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
5.649 |
9.62 |
500 |
3.0038 |
1.0 |
1.6272 |
19.23 |
1000 |
0.7362 |
0.7819 |
1.1354 |
28.85 |
1500 |
0.6410 |
0.7111 |
1.0424 |
38.46 |
2000 |
0.6907 |
0.7431 |
0.9293 |
48.08 |
2500 |
0.7249 |
0.7102 |
0.8246 |
57.69 |
3000 |
0.7422 |
0.6966 |
0.7837 |
67.31 |
3500 |
0.7413 |
0.6813 |
0.7147 |
76.92 |
4000 |
0.7873 |
0.6930 |
0.6276 |
86.54 |
4500 |
0.8038 |
0.6677 |
0.6041 |
96.15 |
5000 |
0.8240 |
0.6831 |
0.5336 |
105.77 |
5500 |
0.8748 |
0.6749 |
0.4705 |
115.38 |
6000 |
0.9006 |
0.6497 |
0.43 |
125.0 |
6500 |
0.8954 |
0.6551 |
0.3859 |
134.62 |
7000 |
0.9074 |
0.6614 |
0.3342 |
144.23 |
7500 |
0.9693 |
0.6560 |
0.3155 |
153.85 |
8000 |
1.0073 |
0.6691 |
0.2673 |
163.46 |
8500 |
1.0170 |
0.6632 |
0.2409 |
173.08 |
9000 |
1.0304 |
0.6709 |
0.2189 |
182.69 |
9500 |
0.9965 |
0.6546 |
0.1973 |
192.31 |
10000 |
1.0360 |
0.6551 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
評估命令示例
!python eval.py \
--model_id DrishtiSharma/wav2vec2-large-xls-r-300m-myv-v1 \
--dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs