🚀 Whisper base AR - BH
本模型是 openai/whisper-base 在 quran-ayat-speech-to-text 数据集上的微调版本。它在评估集上取得了以下结果:
- 损失值(Loss):0.0151
- 词错误率(Wer):17.8284
- 字符错误率(Cer):5.3577
🚀 快速开始
本模型是基于 openai/whisper-base 在特定数据集上微调得到的语音识别模型,可用于语音识别任务。
✨ 主要特性
- 基于预训练的 openai/whisper-base 模型进行微调,在 quran-ayat-speech-to-text 数据集上有良好表现。
- 评估集上有具体的损失值、词错误率和字符错误率指标。
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):0.0001
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):64
- 优化器(optimizer):使用 adamw_torch,其中 betas=(0.9,0.999),epsilon=1e - 08,无额外优化器参数
- 学习率调度器类型(lr_scheduler_type):余弦
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练轮数(num_epochs):7
- 混合精度训练(mixed_precision_training):原生自动混合精度(Native AMP)
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
字符错误率(Cer) |
验证损失(Validation Loss) |
词错误率(Wer) |
0.0425 |
0.3011 |
400 |
11.2952 |
0.0330 |
37.6901 |
0.0258 |
0.6023 |
800 |
7.9539 |
0.0218 |
25.4742 |
0.0197 |
0.9034 |
1200 |
7.0188 |
0.0194 |
22.3362 |
0.0083 |
1.2637 |
1600 |
6.1604 |
0.0183 |
20.2225 |
0.0066 |
1.5794 |
2000 |
5.9469 |
0.0176 |
19.4205 |
0.0065 |
1.8952 |
2400 |
5.8609 |
0.0174 |
19.0958 |
0.0161 |
2.1084 |
2800 |
5.8786 |
0.0167 |
18.8094 |
0.0157 |
2.4096 |
3200 |
5.6719 |
0.0162 |
18.4526 |
0.0157 |
2.7107 |
3600 |
5.6150 |
0.0160 |
18.3772 |
0.0063 |
3.1595 |
4000 |
5.4820 |
0.0160 |
18.0877 |
0.0052 |
3.4752 |
4400 |
5.4747 |
0.0161 |
18.2023 |
0.0049 |
3.7910 |
4800 |
5.5285 |
0.0161 |
17.9922 |
0.0154 |
3.9155 |
5200 |
5.5457 |
0.0159 |
18.1641 |
0.0142 |
4.2168 |
5600 |
5.4871 |
0.0158 |
17.9721 |
0.0143 |
4.5180 |
6000 |
5.5382 |
0.0157 |
18.0495 |
0.0155 |
4.8191 |
6400 |
5.4620 |
0.0156 |
17.9460 |
0.005 |
5.3710 |
6800 |
5.4875 |
0.0157 |
17.7691 |
0.0052 |
5.6868 |
7200 |
5.4416 |
0.0157 |
17.8646 |
0.0085 |
4.8653 |
7600 |
5.5002 |
0.0157 |
17.8817 |
0.0096 |
5.1216 |
8000 |
5.5124 |
0.0156 |
17.8264 |
0.0094 |
5.3776 |
8400 |
5.6387 |
0.0155 |
17.7500 |
0.0093 |
5.6336 |
8800 |
5.4429 |
0.0154 |
17.6736 |
0.01 |
5.8896 |
9200 |
5.3128 |
0.0153 |
17.2856 |
0.0091 |
6.1453 |
9600 |
5.2836 |
0.0153 |
17.2424 |
0.0088 |
6.4019 |
10000 |
0.0153 |
17.2434 |
5.2826 |
0.008 |
6.6579 |
10400 |
0.0153 |
17.1288 |
5.2957 |
0.007 |
6.9139 |
10800 |
0.0153 |
17.1680 |
5.2889 |
框架版本
- Transformers 4.47.0
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本模型采用 Apache 2.0 许可证。
属性 |
详情 |
库名称 |
transformers |
语言 |
阿拉伯语(ar) |
许可证 |
Apache 2.0 |
基础模型 |
openai/whisper-base |
标签 |
generated_from_trainer |
评估指标 |
词错误率(wer) |
模型名称 |
Whisper base AR - BH |