🚀 Whisper base AR - BH
本模型是 openai/whisper-base 在 quran-ayat-speech-to-text 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值(Loss):0.0151
- 詞錯誤率(Wer):17.8284
- 字符錯誤率(Cer):5.3577
🚀 快速開始
本模型是基於 openai/whisper-base 在特定數據集上微調得到的語音識別模型,可用於語音識別任務。
✨ 主要特性
- 基於預訓練的 openai/whisper-base 模型進行微調,在 quran-ayat-speech-to-text 數據集上有良好表現。
- 評估集上有具體的損失值、詞錯誤率和字符錯誤率指標。
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):0.0001
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):64
- 優化器(optimizer):使用 adamw_torch,其中 betas=(0.9,0.999),epsilon=1e - 08,無額外優化器參數
- 學習率調度器類型(lr_scheduler_type):餘弦
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):7
- 混合精度訓練(mixed_precision_training):原生自動混合精度(Native AMP)
訓練結果
訓練損失(Training Loss) |
輪數(Epoch) |
步數(Step) |
字符錯誤率(Cer) |
驗證損失(Validation Loss) |
詞錯誤率(Wer) |
0.0425 |
0.3011 |
400 |
11.2952 |
0.0330 |
37.6901 |
0.0258 |
0.6023 |
800 |
7.9539 |
0.0218 |
25.4742 |
0.0197 |
0.9034 |
1200 |
7.0188 |
0.0194 |
22.3362 |
0.0083 |
1.2637 |
1600 |
6.1604 |
0.0183 |
20.2225 |
0.0066 |
1.5794 |
2000 |
5.9469 |
0.0176 |
19.4205 |
0.0065 |
1.8952 |
2400 |
5.8609 |
0.0174 |
19.0958 |
0.0161 |
2.1084 |
2800 |
5.8786 |
0.0167 |
18.8094 |
0.0157 |
2.4096 |
3200 |
5.6719 |
0.0162 |
18.4526 |
0.0157 |
2.7107 |
3600 |
5.6150 |
0.0160 |
18.3772 |
0.0063 |
3.1595 |
4000 |
5.4820 |
0.0160 |
18.0877 |
0.0052 |
3.4752 |
4400 |
5.4747 |
0.0161 |
18.2023 |
0.0049 |
3.7910 |
4800 |
5.5285 |
0.0161 |
17.9922 |
0.0154 |
3.9155 |
5200 |
5.5457 |
0.0159 |
18.1641 |
0.0142 |
4.2168 |
5600 |
5.4871 |
0.0158 |
17.9721 |
0.0143 |
4.5180 |
6000 |
5.5382 |
0.0157 |
18.0495 |
0.0155 |
4.8191 |
6400 |
5.4620 |
0.0156 |
17.9460 |
0.005 |
5.3710 |
6800 |
5.4875 |
0.0157 |
17.7691 |
0.0052 |
5.6868 |
7200 |
5.4416 |
0.0157 |
17.8646 |
0.0085 |
4.8653 |
7600 |
5.5002 |
0.0157 |
17.8817 |
0.0096 |
5.1216 |
8000 |
5.5124 |
0.0156 |
17.8264 |
0.0094 |
5.3776 |
8400 |
5.6387 |
0.0155 |
17.7500 |
0.0093 |
5.6336 |
8800 |
5.4429 |
0.0154 |
17.6736 |
0.01 |
5.8896 |
9200 |
5.3128 |
0.0153 |
17.2856 |
0.0091 |
6.1453 |
9600 |
5.2836 |
0.0153 |
17.2424 |
0.0088 |
6.4019 |
10000 |
0.0153 |
17.2434 |
5.2826 |
0.008 |
6.6579 |
10400 |
0.0153 |
17.1288 |
5.2957 |
0.007 |
6.9139 |
10800 |
0.0153 |
17.1680 |
5.2889 |
框架版本
- Transformers 4.47.0
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本模型採用 Apache 2.0 許可證。
屬性 |
詳情 |
庫名稱 |
transformers |
語言 |
阿拉伯語(ar) |
許可證 |
Apache 2.0 |
基礎模型 |
openai/whisper-base |
標籤 |
generated_from_trainer |
評估指標 |
詞錯誤率(wer) |
模型名稱 |
Whisper base AR - BH |