🚀 wav2vec2-large-xls-r-300m-sat-a3
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SAT数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在自动语音识别任务中表现出色,能够有效处理相关语音数据,为语音识别领域提供了有力支持。
📚 详细文档
模型信息
属性 |
详情 |
语言 |
sat |
许可证 |
apache - 2.0 |
标签 |
automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、sat、robust - speech - event、model_for_talk、hf - asr - leaderboard |
数据集 |
mozilla - foundation/common_voice_8_0 |
模型索引
- 名称:wav2vec2 - large - xls - r - 300m - sat - a3
- 结果:
- 任务:
- 名称:自动语音识别
- 类型:automatic - speech - recognition
- 数据集:
- 名称:Common Voice 8
- 类型:mozilla - foundation/common_voice_8_0
- 参数:sat
- 指标:
- 名称:Test WER
- 类型:wer
- 值:0.357429718875502
- 名称:Test CER
- 类型:cer
- 值:0.14203730272596843
- 任务:
- 名称:自动语音识别
- 类型:automatic - speech - recognition
- 数据集:
- 名称:Robust Speech Event - Dev Data
- 类型:speech - recognition - community - v2/dev_data
- 参数:sat
- 指标:
- 名称:Test WER
- 类型:wer
- 值:NA
- 名称:Test CER
- 类型:cer
- 值:NA
评估结果
该模型在评估集上取得了以下结果:
- 损失:0.8961
- 字错率(Wer):0.3976
评估命令
- 在mozilla - foundation/common_voice_8_0测试分割集上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-a3 --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上进行评估
⚠️ 重要提示
Santali (Ol Chiki)语言在speech - recognition - community - v2/dev_data中未找到。
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0004
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:200
- 训练轮数:200
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错率(Wer) |
11.1266 |
33.29 |
100 |
2.8577 |
1.0 |
2.1549 |
66.57 |
200 |
1.0799 |
0.5542 |
0.5628 |
99.86 |
300 |
0.7973 |
0.4016 |
0.0779 |
133.29 |
400 |
0.8424 |
0.4177 |
0.0404 |
166.57 |
500 |
0.9048 |
0.4137 |
0.0212 |
199.86 |
600 |
0.8961 |
0.3976 |
框架版本
- Transformers:4.16.2
- Pytorch:1.10.0 + cu111
- Datasets:1.18.3
- Tokenizers:0.11.0
📄 许可证
本模型采用apache - 2.0许可证。