🚀 whisper-large-v3-myanmar
本模型是 openai/whisper-large-v3 在 chuuhtetnaing/myanmar-speech-dataset-openslr-80 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值:0.1752
- 字錯率(Wer):54.8976
🚀 快速開始
本模型是基於 openai/whisper-large-v3
在特定緬甸語語音數據集上微調得到的自動語音識別模型,可用於將緬甸語語音轉錄為文本。
💻 使用示例
基礎用法
from datasets import Audio, load_dataset
from transformers import pipeline
dataset = load_dataset("chuuhtetnaing/myanmar-speech-dataset-openslr-80")
dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
test_dataset = dataset['test']
input_speech = test_dataset[42]['audio']
pipe = pipeline(model='chuuhtetnaing/whisper-large-v3-myanmar')
output = pipe(input_speech, generate_kwargs={"language": "myanmar", "task": "transcribe"})
print(output['text'])
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0003
- 訓練批次大小:20
- 評估批次大小:20
- 隨機種子:42
- 梯度累積步數:3
- 總訓練批次大小:60
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:200
- 訓練輪數:30
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(Wer) |
0.9771 |
1.0 |
42 |
0.7598 |
100.0 |
0.3477 |
2.0 |
84 |
0.2140 |
89.8931 |
0.2244 |
3.0 |
126 |
0.1816 |
79.0294 |
0.1287 |
4.0 |
168 |
0.1510 |
71.9947 |
0.1029 |
5.0 |
210 |
0.1575 |
77.8718 |
0.0797 |
6.0 |
252 |
0.1315 |
70.5254 |
0.0511 |
7.0 |
294 |
0.1143 |
70.5699 |
0.03 |
8.0 |
336 |
0.1154 |
68.1656 |
0.0211 |
9.0 |
378 |
0.1289 |
69.1897 |
0.0151 |
10.0 |
420 |
0.1318 |
66.7854 |
0.0113 |
11.0 |
462 |
0.1478 |
69.1451 |
0.0079 |
12.0 |
504 |
0.1484 |
66.2066 |
0.0053 |
13.0 |
546 |
0.1389 |
65.0935 |
0.0031 |
14.0 |
588 |
0.1479 |
64.3811 |
0.0014 |
15.0 |
630 |
0.1611 |
64.8264 |
0.001 |
16.0 |
672 |
0.1627 |
63.3571 |
0.0012 |
17.0 |
714 |
0.1546 |
65.0045 |
0.0006 |
18.0 |
756 |
0.1566 |
64.5147 |
0.0006 |
20.0 |
760 |
0.1581 |
64.6928 |
0.0002 |
21.0 |
798 |
0.1621 |
63.9804 |
0.0003 |
22.0 |
836 |
0.1664 |
60.8638 |
0.0002 |
23.0 |
874 |
0.1663 |
58.5040 |
0.0 |
24.0 |
912 |
0.1699 |
55.8326 |
0.0 |
25.0 |
950 |
0.1715 |
55.0312 |
0.0 |
26.0 |
988 |
0.1730 |
54.9866 |
0.0 |
27.0 |
1026 |
0.1740 |
54.8976 |
0.0 |
28.0 |
1064 |
0.1747 |
54.8976 |
0.0 |
29.0 |
1102 |
0.1751 |
54.8976 |
0.0 |
30.0 |
1140 |
0.1752 |
54.8976 |
框架版本
- Transformers 4.35.2
- Pytorch 2.1.1+cu121
- Datasets 2.14.5
- Tokenizers 0.15.1
📄 許可證
本模型採用 Apache-2.0 許可證。