🚀 wav2vec2-large-xls-r-300m-hsb-v2
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下成果,为自动语音识别任务提供了有效的解决方案。
✨ 主要特性
- 多语言支持:支持上索布语(hsb),适用于特定语言的语音识别场景。
- 微调优化:基于预训练模型进行微调,在特定数据集上表现更优。
- 评估指标良好:在评估集上有较好的损失和WER指标。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
评估命令
- 在mozilla - foundation/common_voice_8_0测试分割集上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上进行评估
上索布语(hsb)在speech - recognition - community - v2/dev_data中未找到。
训练超参数
以下是训练过程中使用的超参数:
属性 |
详情 |
学习率 |
0.00045 |
训练批次大小 |
16 |
评估批次大小 |
8 |
随机种子 |
42 |
梯度累积步数 |
2 |
总训练批次大小 |
32 |
优化器 |
Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08) |
学习率调度器类型 |
线性 |
学习率调度器热身步数 |
500 |
训练轮数 |
50 |
混合精度训练 |
原生AMP |
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
8.5979 |
3.23 |
100 |
3.5602 |
1.0 |
3.303 |
6.45 |
200 |
3.2238 |
1.0 |
3.2034 |
9.68 |
300 |
3.2002 |
0.9888 |
2.7986 |
12.9 |
400 |
1.2408 |
0.9210 |
1.3869 |
16.13 |
500 |
0.7973 |
0.7462 |
1.0228 |
19.35 |
600 |
0.6722 |
0.6788 |
0.8311 |
22.58 |
700 |
0.6100 |
0.6150 |
0.717 |
25.81 |
800 |
0.6236 |
0.6013 |
0.6264 |
29.03 |
900 |
0.6031 |
0.5575 |
0.5494 |
32.26 |
1000 |
0.5656 |
0.5309 |
0.4781 |
35.48 |
1100 |
0.5289 |
0.4996 |
0.4311 |
38.71 |
1200 |
0.5375 |
0.4768 |
0.3902 |
41.94 |
1300 |
0.5246 |
0.4703 |
0.3508 |
45.16 |
1400 |
0.5382 |
0.4696 |
0.3199 |
48.39 |
1500 |
0.5328 |
0.4596 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
🔧 技术细节
本模型在评估集上取得了以下结果:
- 损失:0.5328
- 词错误率(Wer):0.4596
模型评估结果详情
任务 |
数据集 |
指标 |
值 |
自动语音识别 |
Common Voice 8(hsb) |
测试词错误率(Test WER) |
0.4654228855721393 |
自动语音识别 |
Common Voice 8(hsb) |
测试字符错误率(Test CER) |
0.11351049990708047 |
自动语音识别 |
Robust Speech Event - Dev Data(hsb) |
测试词错误率(Test WER) |
NA |
自动语音识别 |
Robust Speech Event - Dev Data(hsb) |
测试字符错误率(Test CER) |
NA |
📄 许可证
本项目采用Apache 2.0许可证。