🚀 Akashpb13/Galician_xlsr
本模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu数据集对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集(训练数据集的10%,与无效数据、报告数据、其他数据和开发数据集合并)上取得了以下结果:
- 损失值:0.137096
- 字错率(WER):0.196230
✨ 主要特性
- 基于
facebook/wav2vec2 - xls - r - 300m
模型微调,适用于加利西亚语的自动语音识别任务。
- 在多个数据集上进行了评估,具有一定的准确性和鲁棒性。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型描述
对"facebook/wav2vec2 - xls - r - 300m"进行了微调。
预期用途与限制
更多信息待补充。
训练和评估数据
- 训练数据:Common voice加利西亚语的
train.tsv
、dev.tsv
、invalidated.tsv
、reported.tsv
和other.tsv
。仅考虑那些赞成票多于反对票的点,并且在合并Common voice 7.0中给出的所有数据集后去除了重复项。
训练过程
为创建训练数据集,将所有可能的数据集进行了拼接,并采用了90 - 10的分割方式。
训练超参数
训练期间使用了以下超参数:
- 学习率(learning_rate):0.000096
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):13
- 梯度累积步数(gradient_accumulation_steps):2
- 学习率调度器类型(lr_scheduler_type):cosine_with_restarts
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练轮数(num_epochs):100
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
字错率(Wer) |
500 |
5.038100 |
3.035432 |
1.000000 |
1000 |
2.180000 |
0.406300 |
0.557964 |
1500 |
0.331700 |
0.153797 |
0.262394 |
2000 |
0.171600 |
0.145268 |
0.235627 |
2500 |
0.125900 |
0.136622 |
0.228087 |
3000 |
0.105400 |
0.131650 |
0.224128 |
3500 |
0.087600 |
0.141032 |
0.217531 |
4000 |
0.078300 |
0.143675 |
0.214515 |
4500 |
0.070000 |
0.144607 |
0.208106 |
5000 |
0.061500 |
0.135259 |
0.202828 |
5500 |
0.055600 |
0.130638 |
0.203959 |
6000 |
0.050500 |
0.137416 |
0.202451 |
6500 |
0.046600 |
0.140379 |
0.200000 |
7000 |
0.040800 |
0.140179 |
0.200377 |
7500 |
0.041000 |
0.138089 |
0.196795 |
8000 |
0.038400 |
0.136927 |
0.197172 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
评估命令
- 在
mozilla - foundation/common_voice_8_0
数据集的test
分割上进行评估:
python eval.py --model_id Akashpb13/Galician_xlsr --dataset mozilla - foundation/common_voice_8_0 --config gl --split test
🔧 技术细节
模型指标
任务 |
数据集 |
指标 |
值 |
自动语音识别 |
Common Voice 8 (kmr) |
测试字错率(Test WER) |
0.11308483789555426 |
自动语音识别 |
Common Voice 8 (kmr) |
测试字符错误率(Test CER) |
0.023982371794871796 |
自动语音识别 |
Robust Speech Event - Dev Data (gl) |
测试字错率(Test WER) |
0.11308483789555426 |
自动语音识别 |
Robust Speech Event - Dev Data (gl) |
测试字符错误率(Test CER) |
0.023982371794871796 |
自动语音识别 |
Common Voice 8.0 (gl) |
测试字错率(Test WER) |
11.31 |
自动语音识别 |
Robust Speech Event - Test Data (gl) |
测试字错率(Test WER) |
39.05 |
📄 许可证
本模型采用Apache - 2.0许可证。