🚀 whisper-large-v3-turbo-common_voice_19_0-zh-TW
本模型是基於transformers
庫微調的語音識別模型,在繁體中文(臺灣)自動語音識別任務上表現出色,能有效將語音轉換為文字。
🚀 快速開始
本模型是 openai/whisper-large-v3-turbo 在 JacobLinCool/common_voice_19_0_zh-TW 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失率(Loss):0.1786
- 詞錯誤率(Wer):32.5554
- 字符錯誤率(Cer):8.6009
- 解碼運行時間(Decode Runtime):90.9833
- 詞錯誤率運行時間(Wer Runtime):0.1257
- 字符錯誤率運行時間(Cer Runtime):0.1534
✨ 主要特性
- 開源易用:這是一個開源的繁體中文(臺灣)自動語音識別(ASR)模型,遵循 MIT 許可證,可免費使用。
- 特定語言適配:專為繁體中文設計的免提示 ASR 模型。不過,由於繼承了 Whisper 的語言識別(LID)系統,在處理簡體中文時性能可能會下降。
📚 詳細文檔
模型描述
這是一個開源的繁體中文(臺灣)自動語音識別(ASR)模型。
預期用途與限制
本模型旨在成為一個免提示的繁體中文 ASR 模型。由於它繼承了 Whisper 的語言識別(LID)系統,該系統在同一語言標記(zh
)下支持其他中文語言變體,因此我們預計在轉錄簡體中文時性能可能會下降。
該模型在 MIT 許可證下可免費使用。
訓練和評估數據
本模型在 Common Voice Corpus 19.0 Chinese (Taiwan) Subset 上進行訓練,該數據集包含約 50k 個訓練示例(44 小時)和 5k 個測試示例(5 小時)。這個數據集比 mozilla-foundation/common_voice_16_1 的訓練集和驗證集(train+validation
)的組合大四倍,後者包含約 12k 個示例。
訓練過程
Tensorboard
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):0.0002
- 訓練批次大小(train_batch_size):4
- 評估批次大小(eval_batch_size):32
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):8
- 總訓練批次大小(total_train_batch_size):32
- 優化器:使用 OptimizerNames.ADAMW_TORCH,β值為(0.9, 0.999),ε值為 1e-08,無額外優化器參數
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):50
- 訓練步數(training_steps):5000
訓練結果
訓練損失率 |
輪數 |
步數 |
驗證損失率 |
詞錯誤率 |
字符錯誤率 |
解碼運行時間 |
詞錯誤率運行時間 |
字符錯誤率運行時間 |
無記錄 |
0 |
0 |
2.7208 |
76.5011 |
20.4851 |
89.4916 |
0.1213 |
0.1639 |
1.1832 |
0.1 |
500 |
0.1939 |
39.9561 |
10.8721 |
90.0926 |
0.1222 |
0.1555 |
1.5179 |
0.2 |
1000 |
0.1774 |
37.6621 |
9.9322 |
89.8657 |
0.1225 |
0.1545 |
0.6179 |
0.3 |
1500 |
0.1796 |
36.2657 |
9.8325 |
90.2480 |
0.1198 |
0.1573 |
0.3626 |
1.0912 |
2000 |
0.1846 |
36.2258 |
9.7801 |
90.3306 |
0.1196 |
0.1539 |
0.1311 |
1.1912 |
2500 |
0.1776 |
34.8095 |
9.3214 |
90.3124 |
0.1286 |
0.1610 |
0.1263 |
1.2912 |
3000 |
0.1763 |
36.1261 |
9.3563 |
90.4271 |
0.1330 |
0.1650 |
0.2194 |
2.0825 |
3500 |
0.1891 |
34.6898 |
9.3114 |
91.1932 |
0.1320 |
0.1643 |
0.1127 |
2.1825 |
4000 |
0.1838 |
34.0714 |
9.1095 |
90.2416 |
0.1196 |
0.1529 |
0.3792 |
2.2824 |
4500 |
0.1786 |
33.1339 |
8.7679 |
90.9144 |
0.1310 |
0.1550 |
0.0606 |
3.0737 |
5000 |
0.1786 |
32.5554 |
8.6009 |
90.9833 |
0.1257 |
0.1534 |
框架版本
- PEFT 0.13.2
- Transformers 4.46.1
- Pytorch 2.4.0
- Datasets 3.0.2
- Tokenizers 0.20.1
📄 許可證
本模型遵循 MIT 許可證。