🚀 wav2vec2-large-xls-r-300m-or-d5
该模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - OR数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在自动语音识别任务中表现出色,能有效处理语音数据并输出准确的识别结果。
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2 - xls - r - 300m
进行微调,继承了强大的语音特征提取能力。
- 在多个数据集上进行评估,如Common Voice 8和Robust Speech Event - Dev Data,展现出良好的泛化能力。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
评估指标
该模型在评估集上取得了以下结果:
- 损失值(Loss): 0.9571
- 词错误率(Wer): 0.5450
评估命令
- 在
mozilla - foundation/common_voice_8_0
测试集上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset mozilla-foundation/common_voice_8_0 --config or --split test --log_outputs
- 在
speech - recognition - community - v2/dev_data
上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset speech-recognition-community-v2/dev_data --config or --split validation --chunk_length_s 10 --stride_length_s 1
训练超参数
以下是训练过程中使用的超参数:
属性 |
详情 |
学习率(learning_rate) |
0.000111 |
训练批次大小(train_batch_size) |
16 |
评估批次大小(eval_batch_size) |
8 |
随机种子(seed) |
42 |
梯度累积步数(gradient_accumulation_steps) |
2 |
总训练批次大小(total_train_batch_size) |
32 |
优化器(optimizer) |
Adam(betas=(0.9, 0.999),epsilon = 1e - 08) |
学习率调度器类型(lr_scheduler_type) |
linear |
学习率调度器热身步数(lr_scheduler_warmup_steps) |
800 |
训练轮数(num_epochs) |
200 |
混合精度训练(mixed_precision_training) |
Native AMP |
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
验证损失(Validation Loss) |
词错误率(Wer) |
9.2958 |
12.5 |
300 |
4.9014 |
1.0 |
3.4065 |
25.0 |
600 |
3.5150 |
1.0 |
1.5402 |
37.5 |
900 |
0.8356 |
0.7249 |
0.6049 |
50.0 |
1200 |
0.7754 |
0.6349 |
0.4074 |
62.5 |
1500 |
0.7994 |
0.6217 |
0.3097 |
75.0 |
1800 |
0.8815 |
0.5985 |
0.2593 |
87.5 |
2100 |
0.8532 |
0.5754 |
0.2097 |
100.0 |
2400 |
0.9077 |
0.5648 |
0.1784 |
112.5 |
2700 |
0.9047 |
0.5668 |
0.1567 |
125.0 |
3000 |
0.9019 |
0.5728 |
0.1315 |
137.5 |
3300 |
0.9295 |
0.5827 |
0.1125 |
150.0 |
3600 |
0.9256 |
0.5681 |
0.1035 |
162.5 |
3900 |
0.9148 |
0.5496 |
0.0901 |
175.0 |
4200 |
0.9480 |
0.5483 |
0.0817 |
187.5 |
4500 |
0.9799 |
0.5516 |
0.079 |
200.0 |
4800 |
0.9571 |
0.5450 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技术细节
文档未提供具体的技术实现细节,暂不展示。
📄 许可证
该模型使用Apache 2.0许可证。