🚀 wav2vec2-large-xls-r-300m-ia
该模型是在通用语音(Common Voice)数据集上对 facebook/wav2vec2-xls-r-300m 进行微调后的版本。它在自动语音识别任务中表现出色,能够有效处理相关语音数据,为语音识别领域提供了有力的支持。
🚀 快速开始
此模型是在通用语音数据集上对 facebook/wav2vec2-xls-r-300m 进行微调的版本。它在评估集上取得了以下结果:
- 损失(Loss):0.1452
- 字错误率(Wer):0.1253
✨ 主要特性
📚 详细文档
训练过程
训练在 Google Colab 中进行,训练笔记本可在仓库中找到。
训练和评估数据
语言模型是根据数据集(国际语的通用语音 8.0)的训练 + 验证分割中的处理后句子文本创建的。评估在笔记本中进行,你可以在仓库中的 "notebook_evaluation_wav2vec2_ia.ipynb" 里查看。
评估指标
- 不使用语言模型(LM)的测试字错误率(WER):20.1776 %
- 不使用语言模型(LM)的测试字符错误率(CER):4.7205 %
- 使用语言模型(LM)的测试字错误率(WER):8.6074 %
- 使用语言模型(LM)的测试字符错误率(CER):2.4147 %
评估命令
使用 eval.py 进行评估:
huggingface-cli login
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率(learning_rate) |
3e-05 |
训练批次大小(train_batch_size) |
16 |
评估批次大小(eval_batch_size) |
4 |
随机种子(seed) |
42 |
梯度累积步数(gradient_accumulation_steps) |
2 |
总训练批次大小(total_train_batch_size) |
32 |
优化器(optimizer) |
Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08) |
学习率调度器类型(lr_scheduler_type) |
线性 |
学习率调度器热身步数(lr_scheduler_warmup_steps) |
400 |
训练轮数(num_epochs) |
30 |
混合精度训练(mixed_precision_training) |
原生自动混合精度(Native AMP) |
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
验证损失(Validation Loss) |
字错误率(Wer) |
7.432 |
1.87 |
400 |
2.9636 |
1.0 |
2.6922 |
3.74 |
800 |
2.2111 |
0.9977 |
1.2581 |
5.61 |
1200 |
0.4864 |
0.4028 |
0.6232 |
7.48 |
1600 |
0.2807 |
0.2413 |
0.4479 |
9.35 |
2000 |
0.2219 |
0.1885 |
0.3654 |
11.21 |
2400 |
0.1886 |
0.1606 |
0.323 |
13.08 |
2800 |
0.1716 |
0.1444 |
0.2935 |
14.95 |
3200 |
0.1687 |
0.1443 |
0.2707 |
16.82 |
3600 |
0.1632 |
0.1382 |
0.2559 |
18.69 |
4000 |
0.1507 |
0.1337 |
0.2433 |
20.56 |
4400 |
0.1572 |
0.1358 |
0.2338 |
22.43 |
4800 |
0.1489 |
0.1305 |
0.2258 |
24.3 |
5200 |
0.1485 |
0.1278 |
0.2218 |
26.17 |
5600 |
0.1470 |
0.1272 |
0.2169 |
28.04 |
6000 |
0.1470 |
0.1270 |
0.2117 |
29.91 |
6400 |
0.1452 |
0.1253 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 许可证
本项目采用 Apache-2.0 许可证。