🚀 Whisper 印度英語口音模型
本模型是基於印度英語口音數據集對 openai/whisper-large-v3-turbo 進行微調後的版本。它在評估集上取得了以下成績:
- 損失值:0.3230
- 字錯率(Wer):7.9852
✨ 主要特性
- 基於強大的
openai/whisper-large-v3-turbo
模型進行微調,更適配印度英語口音。
- 在印度英語口音數據集上進行評估,具有較低的字錯率。
📚 詳細文檔
模型描述
該模型是 openai/whisper-large-v3-turbo 在印度英語口音數據集上的微調版本,旨在提高對印度英語口音的自動語音識別能力。
預期用途與限制
文檔中未提供相關信息。
訓練和評估數據
文檔中未提供相關信息。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):1e-05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 優化器(optimizer):使用 adamw_torch,其中 betas=(0.9, 0.999),epsilon=1e-08,無額外的優化器參數。
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):15
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(Wer) |
0.0435 |
0.1943 |
1000 |
0.2509 |
9.7582 |
0.0449 |
0.3885 |
2000 |
0.2618 |
10.1957 |
0.0461 |
0.5828 |
3000 |
0.2575 |
10.0569 |
0.0586 |
0.7770 |
4000 |
0.2512 |
9.6972 |
0.0565 |
0.9713 |
5000 |
0.2559 |
9.7088 |
0.0375 |
1.1655 |
6000 |
0.2611 |
10.0012 |
0.0374 |
1.3598 |
7000 |
0.2623 |
9.9065 |
0.0405 |
1.5540 |
8000 |
0.2592 |
9.8424 |
0.0392 |
1.7483 |
9000 |
0.2551 |
9.6941 |
0.0473 |
1.9425 |
10000 |
0.2648 |
9.5111 |
0.0264 |
2.1368 |
11000 |
0.2720 |
9.6941 |
0.0292 |
2.3310 |
12000 |
0.2633 |
9.6373 |
0.0276 |
2.5253 |
13000 |
0.2666 |
9.5700 |
0.028 |
2.7195 |
14000 |
0.2687 |
9.5027 |
0.0252 |
2.9138 |
15000 |
0.2643 |
9.1788 |
0.0202 |
3.1080 |
16000 |
0.2715 |
9.1157 |
0.0195 |
3.3023 |
17000 |
0.2729 |
9.2766 |
0.0277 |
3.4965 |
18000 |
0.2733 |
9.3302 |
0.0196 |
3.6908 |
19000 |
0.2693 |
9.1504 |
0.017 |
3.8850 |
20000 |
0.2724 |
9.1619 |
0.0124 |
4.0793 |
21000 |
0.2786 |
9.0389 |
0.0191 |
4.2735 |
22000 |
0.2756 |
9.0168 |
0.0143 |
4.4678 |
23000 |
0.2796 |
9.0315 |
0.0135 |
4.6620 |
24000 |
0.2819 |
9.0620 |
0.0191 |
4.8563 |
25000 |
0.2761 |
8.9600 |
0.0071 |
5.0505 |
26000 |
0.2804 |
8.9085 |
0.0097 |
5.2448 |
27000 |
0.2842 |
8.7203 |
0.0088 |
5.4390 |
28000 |
0.2853 |
8.7318 |
0.0127 |
5.6333 |
29000 |
0.2833 |
8.8517 |
0.0125 |
5.8275 |
30000 |
0.2894 |
8.7918 |
0.004 |
6.0218 |
31000 |
0.2860 |
8.5604 |
0.0062 |
6.2160 |
32000 |
0.2881 |
8.5846 |
0.0074 |
6.4103 |
33000 |
0.2933 |
8.8212 |
0.0073 |
6.6045 |
34000 |
0.2964 |
8.6298 |
0.0079 |
6.7988 |
35000 |
0.2883 |
8.6698 |
0.0066 |
6.9930 |
36000 |
0.2887 |
8.5720 |
0.0051 |
7.1873 |
37000 |
0.2986 |
8.5593 |
0.004 |
7.3815 |
38000 |
0.2943 |
8.5583 |
0.0077 |
7.5758 |
39000 |
0.2885 |
8.5152 |
0.0075 |
7.7700 |
40000 |
0.3002 |
8.7623 |
0.0053 |
7.9643 |
41000 |
0.2955 |
8.5215 |
0.0021 |
8.1585 |
42000 |
0.2976 |
8.5057 |
0.0019 |
8.3528 |
43000 |
0.3001 |
8.5699 |
0.0076 |
8.5470 |
44000 |
0.3072 |
8.6582 |
0.0028 |
8.7413 |
45000 |
0.3007 |
8.6109 |
0.0027 |
8.9355 |
46000 |
0.2987 |
8.4237 |
0.0018 |
9.1298 |
47000 |
0.2980 |
8.4721 |
0.0022 |
9.3240 |
48000 |
0.3054 |
8.5068 |
0.0014 |
9.5183 |
49000 |
0.3022 |
8.4310 |
0.0023 |
9.7125 |
50000 |
0.3074 |
8.5352 |
0.0018 |
9.9068 |
51000 |
0.3072 |
8.4626 |
0.0004 |
10.1010 |
52000 |
0.3057 |
8.2386 |
0.001 |
10.2953 |
53000 |
0.3090 |
8.3595 |
0.003 |
10.4895 |
54000 |
0.3096 |
8.4216 |
0.0019 |
10.6838 |
55000 |
0.3011 |
8.2523 |
0.0007 |
10.8780 |
56000 |
0.3080 |
8.2765 |
0.0004 |
11.0723 |
57000 |
0.3098 |
8.2460 |
0.0006 |
11.2665 |
58000 |
0.3109 |
8.2775 |
0.0004 |
11.4608 |
59000 |
0.3099 |
8.2933 |
0.0007 |
11.6550 |
60000 |
0.3161 |
8.2996 |
0.0003 |
11.8493 |
61000 |
0.3107 |
8.1671 |
0.0002 |
12.0435 |
62000 |
0.3111 |
8.2628 |
0.0002 |
12.2378 |
63000 |
0.3133 |
8.2428 |
0.0002 |
12.4320 |
64000 |
0.3132 |
8.1324 |
0.0004 |
12.6263 |
65000 |
0.3173 |
8.1986 |
0.0002 |
12.8205 |
66000 |
0.3167 |
8.1313 |
0.0002 |
13.0148 |
67000 |
0.3151 |
8.1576 |
0.0001 |
13.2090 |
68000 |
0.3166 |
8.0304 |
0.0001 |
13.4033 |
69000 |
0.3177 |
8.0167 |
0.0002 |
13.5975 |
70000 |
0.3187 |
8.0514 |
0.0001 |
13.7918 |
71000 |
0.3161 |
8.0546 |
0.001 |
13.9860 |
72000 |
0.3180 |
8.0956 |
0.0001 |
14.1803 |
73000 |
0.3242 |
8.0367 |
0.0001 |
14.3745 |
74000 |
0.3217 |
7.9978 |
0.0001 |
14.5688 |
75000 |
0.3222 |
7.9999 |
0.0001 |
14.7630 |
76000 |
0.3231 |
7.9862 |
0.0001 |
14.9573 |
77000 |
0.3230 |
7.9852 |
框架版本
- Transformers 4.49.0
- Pytorch 2.2.0a0+81ea7a4
- Datasets 3.3.2
- Tokenizers 0.21.0
📄 許可證
本模型採用 MIT 許可證。
🔧 技術細節
屬性 |
詳情 |
模型類型 |
基於 openai/whisper-large-v3-turbo 微調的自動語音識別模型 |
訓練數據 |
WillHeld/india_accent_cv 數據集 |
評估指標 |
字錯率(Wer) |