🚀 Akashpb13/xlsr_hungarian_new
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - hu数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集(训练数据集的10%与无效数据、报告数据、其他数据和开发数据集合并而成)上取得了以下成果:
- 损失值:0.197464
- 词错误率(Wer):0.330094
✨ 主要特性
- 多数据集评估:在多个数据集上进行自动语音识别任务的评估,包括Common Voice 8和Robust Speech Event的开发与测试数据。
- 明确的评估指标:提供了词错误率(WER)和字符错误率(CER)等评估指标。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
基础用法
若要在mozilla - foundation/common_voice_8_0
数据集的test
分割上进行评估,可使用以下命令:
python eval.py --model_id Akashpb13/xlsr_hungarian_new --dataset mozilla - foundation/common_voice_8_0 --config hu --split test
📚 详细文档
模型描述
对“facebook/wav2vec2 - xls - r - 300m”进行了微调。
预期用途与限制
需要更多相关信息。
训练和评估数据
- 训练数据:Common voice匈牙利语的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。仅考虑那些赞成票多于反对票的点,并且在合并Common voice 7.0中给出的所有数据集后去除了重复项。
训练过程
为创建训练数据集,将所有可能的数据集进行了拼接,并采用了90 - 10的分割方式。
训练超参数
训练期间使用了以下超参数:
- 学习率:0.000095637994662983496
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:13
- 梯度累积步数:16
- 学习率调度器类型:cosine_with_restarts
- 学习率调度器热身步数:500
- 训练轮数:100
- 混合精度训练:Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
词错误率(Wer) |
500 |
4.785300 |
0.952295 |
0.796236 |
1000 |
0.535800 |
0.217474 |
0.381613 |
1500 |
0.258400 |
0.205524 |
0.345056 |
2000 |
0.202800 |
0.198680 |
0.336264 |
2500 |
0.182700 |
0.197464 |
0.330094 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
🔧 技术细节
模型评估指标
任务 |
数据集 |
评估指标 |
值 |
自动语音识别 |
Common Voice 8 |
测试词错误率(Test WER) |
0.2851621517163838 |
自动语音识别 |
Common Voice 8 |
测试字符错误率(Test CER) |
0.06112982522287432 |
自动语音识别 |
Robust Speech Event - Dev Data |
测试词错误率(Test WER) |
0.2851621517163838 |
自动语音识别 |
Robust Speech Event - Dev Data |
测试字符错误率(Test CER) |
0.06112982522287432 |
自动语音识别 |
Robust Speech Event - Test Data |
测试词错误率(Test WER) |
47.15 |
📄 许可证
本模型使用的许可证为Apache - 2.0。