🚀 sammy786/wav2vec2-xlsr-estonian
该模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - et数据集上对facebook/wav2vec2 - xls - r - 1b进行微调后的版本。它在评估集(训练数据集的10%与其他和开发数据集合并而成)上取得了以下结果:
- 损失值:17.94
- 词错误率(Wer):30.38
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2-xls-r-1b
进行微调,适用于爱沙尼亚语的自动语音识别任务。
- 提供了详细的训练超参数和训练结果,方便复现和参考。
📚 详细文档
模型描述
对“facebook/wav2vec2 - xls - r - 1b”进行了微调。
预期用途与限制
需要更多信息。
训练和评估数据
训练数据:Common voice芬兰语的train.tsv、dev.tsv和other.tsv文件。
训练过程
为创建训练数据集,将所有可能的数据集进行拼接,并采用90 - 10的分割方式。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):0.000045637994662983496
- 训练批次大小(train_batch_size):8
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):13
- 梯度累积步数(gradient_accumulation_steps):2
- 总训练批次大小(total_train_batch_size):32
- 优化器(optimizer):Adam,β值为(0.9, 0.999),ε值为1e - 08
- 学习率调度器类型(lr_scheduler_type):cosine_with_restarts
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练轮数(num_epochs):30
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
步骤 |
训练损失 |
验证损失 |
词错误率(Wer) |
200 |
3.729100 |
1.096018 |
0.959867 |
400 |
0.996900 |
0.310228 |
0.443600 |
600 |
0.762900 |
0.210873 |
0.346117 |
800 |
0.621400 |
0.200381 |
0.331513 |
1000 |
0.408000 |
0.196382 |
0.322014 |
1200 |
0.320200 |
0.176281 |
0.312515 |
1400 |
0.315300 |
0.179433 |
0.303847 |
1600 |
0.445800 |
0.420985 |
0.315839 |
1800 |
0.644600 |
0.433833 |
0.354904 |
2000 |
0.550900 |
0.327117 |
0.336500 |
2200 |
0.498600 |
0.289830 |
0.325457 |
2400 |
0.488300 |
0.294309 |
0.314177 |
2600 |
0.491700 |
0.311175 |
0.318689 |
2800 |
0.508500 |
0.314744 |
0.320470 |
3000 |
0.499900 |
0.314834 |
0.320589 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
评估命令
- 在
mozilla - foundation/common_voice_8_0
数据集的test
分割上进行评估:
python eval.py --model_id sammy786/wav2vec2-xlsr-estonian --dataset mozilla-foundation/common_voice_8_0 --config et --split test
📄 许可证
本项目采用Apache 2.0许可证。
模型指标信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
Common voice芬兰语的train.tsv、dev.tsv和other.tsv文件 |