🚀 ViTGPT2_vizwiz
該模型是基於未知數據集對進行微調後的版本。它在評估集上取得了如下結果:
🚀 快速開始
此部分暫未提供具體開始使用的內容,可依據模型的常規使用方法,結合後續提供的訓練和評估信息進行操作。
📚 詳細文檔
模型描述
更多信息待補充。
預期用途與限制
更多信息待補充。
訓練和評估數據
更多信息待補充。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 分佈式類型:多GPU
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 訓練輪數:3.0
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
0.1207 |
0.07 |
1000 |
0.0906 |
0.0916 |
0.14 |
2000 |
0.0861 |
0.0879 |
0.2 |
3000 |
0.0840 |
0.0856 |
0.27 |
4000 |
0.0822 |
0.0834 |
0.34 |
5000 |
0.0806 |
0.0817 |
0.41 |
6000 |
0.0795 |
0.0812 |
0.48 |
7000 |
0.0785 |
0.0808 |
0.55 |
8000 |
0.0779 |
0.0796 |
0.61 |
9000 |
0.0771 |
0.0786 |
0.68 |
10000 |
0.0767 |
0.0774 |
0.75 |
11000 |
0.0762 |
0.0772 |
0.82 |
12000 |
0.0758 |
0.0756 |
0.89 |
13000 |
0.0754 |
0.0759 |
0.96 |
14000 |
0.0750 |
0.0756 |
1.02 |
15000 |
0.0748 |
0.0726 |
1.09 |
16000 |
0.0745 |
0.0727 |
1.16 |
17000 |
0.0745 |
0.0715 |
1.23 |
18000 |
0.0742 |
0.0726 |
1.3 |
19000 |
0.0741 |
0.072 |
1.37 |
20000 |
0.0738 |
0.0723 |
1.43 |
21000 |
0.0735 |
0.0715 |
1.5 |
22000 |
0.0734 |
0.0724 |
1.57 |
23000 |
0.0732 |
0.0723 |
1.64 |
24000 |
0.0730 |
0.0718 |
1.71 |
25000 |
0.0729 |
0.07 |
1.78 |
26000 |
0.0728 |
0.0702 |
1.84 |
27000 |
0.0726 |
0.0704 |
1.91 |
28000 |
0.0725 |
0.0703 |
1.98 |
29000 |
0.0725 |
0.0686 |
2.05 |
30000 |
0.0726 |
0.0687 |
2.12 |
31000 |
0.0726 |
0.0688 |
2.19 |
32000 |
0.0724 |
0.0677 |
2.25 |
33000 |
0.0724 |
0.0665 |
2.32 |
34000 |
0.0725 |
0.0684 |
2.39 |
35000 |
0.0723 |
0.0678 |
2.46 |
36000 |
0.0722 |
0.0686 |
2.53 |
37000 |
0.0722 |
0.067 |
2.59 |
38000 |
0.0721 |
0.0669 |
2.66 |
39000 |
0.0721 |
0.0673 |
2.73 |
40000 |
0.0721 |
0.0673 |
2.8 |
41000 |
0.0720 |
0.0662 |
2.87 |
42000 |
0.0720 |
0.0681 |
2.94 |
43000 |
0.0719 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0