🚀 wav2vec2-large-xls-r-300m-kk-with-LM 語音識別模型
本模型是一個用於自動語音識別的模型,基於特定數據集進行微調,在評估集上取得了一定的識別效果,可用於哈薩克語的語音識別任務。
📚 詳細文檔
模型信息
屬性 |
詳情 |
語言 |
哈薩克語(kk) |
許可證 |
Apache-2.0 |
標籤 |
自動語音識別、基於 Mozilla 基金會的 Common Voice 8.0 數據集、由訓練器生成、哈薩克語、魯棒語音事件、對話模型、HF 自動語音識別排行榜 |
數據集 |
mozilla-foundation/common_voice_8_0 |
模型名稱 |
wav2vec2-large-xls-r-300m-kk-with-LM |
評估結果
本模型在不同數據集上的評估結果如下:
任務 |
數據集 |
指標 |
值 |
自動語音識別 |
Common Voice 8(ru) |
測試詞錯誤率(WER) |
0.4355 |
自動語音識別 |
Common Voice 8(ru) |
測試字符錯誤率(CER) |
0.10469915859660263 |
自動語音識別 |
Common Voice 8(ru,+LM) |
測試詞錯誤率(WER) |
0.417 |
自動語音識別 |
Common Voice 8(ru,+LM) |
測試字符錯誤率(CER) |
0.10319098269566598 |
自動語音識別 |
Robust Speech Event - Dev Data(kk) |
測試詞錯誤率(WER) |
NA |
自動語音識別 |
Robust Speech Event - Dev Data(kk) |
測試字符錯誤率(CER) |
NA |
自動語音識別 |
Common Voice 8.0(kk) |
測試詞錯誤率(WER) |
41.7 |
自動語音識別 |
Robust Speech Event - Test Data(kk) |
測試詞錯誤率(WER) |
67.09 |
評估命令
- 在 mozilla-foundation/common_voice_8_0 測試集上進行評估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs
- 在 speech-recognition-community-v2/dev_data 上評估:
⚠️ 重要提示
哈薩克語在 speech-recognition-community-v2/dev_data 中不可用。
訓練超參數
訓練過程中使用的超參數如下:
- 學習率:0.000222
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:1000
- 訓練輪數:150.0
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
9.6799 |
9.09 |
200 |
3.6119 |
1.0 |
3.1332 |
18.18 |
400 |
2.5352 |
1.005 |
1.0465 |
27.27 |
600 |
0.6169 |
0.682 |
0.3452 |
36.36 |
800 |
0.6572 |
0.607 |
0.2575 |
45.44 |
1000 |
0.6527 |
0.578 |
0.2088 |
54.53 |
1200 |
0.6828 |
0.551 |
0.158 |
63.62 |
1400 |
0.7074 |
0.5575 |
0.1309 |
72.71 |
1600 |
0.6523 |
0.5595 |
0.1074 |
81.8 |
1800 |
0.7262 |
0.5415 |
0.087 |
90.89 |
2000 |
0.7199 |
0.521 |
0.0711 |
99.98 |
2200 |
0.7113 |
0.523 |
0.0601 |
109.09 |
2400 |
0.6863 |
0.496 |
0.0451 |
118.18 |
2600 |
0.6998 |
0.483 |
0.0378 |
127.27 |
2800 |
0.6971 |
0.4615 |
0.0319 |
136.36 |
3000 |
0.7119 |
0.4475 |
0.0305 |
145.44 |
3200 |
0.7181 |
0.459 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
評估命令示例
!python eval.py \
--model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 \
--dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs
📄 許可證
本模型使用 Apache-2.0 許可證。