🚀 wav2vec2-large-xls-r-300m-kk-with-LM 语音识别模型
本模型是一个用于自动语音识别的模型,基于特定数据集进行微调,在评估集上取得了一定的识别效果,可用于哈萨克语的语音识别任务。
📚 详细文档
模型信息
属性 |
详情 |
语言 |
哈萨克语(kk) |
许可证 |
Apache-2.0 |
标签 |
自动语音识别、基于 Mozilla 基金会的 Common Voice 8.0 数据集、由训练器生成、哈萨克语、鲁棒语音事件、对话模型、HF 自动语音识别排行榜 |
数据集 |
mozilla-foundation/common_voice_8_0 |
模型名称 |
wav2vec2-large-xls-r-300m-kk-with-LM |
评估结果
本模型在不同数据集上的评估结果如下:
任务 |
数据集 |
指标 |
值 |
自动语音识别 |
Common Voice 8(ru) |
测试词错误率(WER) |
0.4355 |
自动语音识别 |
Common Voice 8(ru) |
测试字符错误率(CER) |
0.10469915859660263 |
自动语音识别 |
Common Voice 8(ru,+LM) |
测试词错误率(WER) |
0.417 |
自动语音识别 |
Common Voice 8(ru,+LM) |
测试字符错误率(CER) |
0.10319098269566598 |
自动语音识别 |
Robust Speech Event - Dev Data(kk) |
测试词错误率(WER) |
NA |
自动语音识别 |
Robust Speech Event - Dev Data(kk) |
测试字符错误率(CER) |
NA |
自动语音识别 |
Common Voice 8.0(kk) |
测试词错误率(WER) |
41.7 |
自动语音识别 |
Robust Speech Event - Test Data(kk) |
测试词错误率(WER) |
67.09 |
评估命令
- 在 mozilla-foundation/common_voice_8_0 测试集上进行评估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs
- 在 speech-recognition-community-v2/dev_data 上评估:
⚠️ 重要提示
哈萨克语在 speech-recognition-community-v2/dev_data 中不可用。
训练超参数
训练过程中使用的超参数如下:
- 学习率:0.000222
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:1000
- 训练轮数:150.0
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
9.6799 |
9.09 |
200 |
3.6119 |
1.0 |
3.1332 |
18.18 |
400 |
2.5352 |
1.005 |
1.0465 |
27.27 |
600 |
0.6169 |
0.682 |
0.3452 |
36.36 |
800 |
0.6572 |
0.607 |
0.2575 |
45.44 |
1000 |
0.6527 |
0.578 |
0.2088 |
54.53 |
1200 |
0.6828 |
0.551 |
0.158 |
63.62 |
1400 |
0.7074 |
0.5575 |
0.1309 |
72.71 |
1600 |
0.6523 |
0.5595 |
0.1074 |
81.8 |
1800 |
0.7262 |
0.5415 |
0.087 |
90.89 |
2000 |
0.7199 |
0.521 |
0.0711 |
99.98 |
2200 |
0.7113 |
0.523 |
0.0601 |
109.09 |
2400 |
0.6863 |
0.496 |
0.0451 |
118.18 |
2600 |
0.6998 |
0.483 |
0.0378 |
127.27 |
2800 |
0.6971 |
0.4615 |
0.0319 |
136.36 |
3000 |
0.7119 |
0.4475 |
0.0305 |
145.44 |
3200 |
0.7181 |
0.459 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令示例
!python eval.py \
--model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 \
--dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs
📄 许可证
本模型使用 Apache-2.0 许可证。