vit-base-patch16-224-wi2開源視覺模型 - 免費部署高效完成圖像分類任務

Vit Base Patch16 224 Wi2

由Imene開發

基於google/vit-base-patch16-224微調的視覺Transformer模型，適用於圖像分類任務

下載量 21

發布時間 : 9/10/2022

模型概述

該模型是基於Vision Transformer (ViT)架構的圖像分類模型，通過微調提升了在特定數據集上的表現。

基於ViT架構

採用Vision Transformer架構，使用自注意力機制處理圖像

混合精度訓練

使用mixed_float16精度進行訓練，優化計算效率

AdamW優化器

採用AdamWeightDecay優化器配合多項式學習率衰減策略

圖像分類

特徵提取

計算機視覺

通用圖像分類

對輸入圖像進行分類預測

在驗證集上達到24.91%的準確率

訓練損失	訓練準確率	訓練前 5 準確率	驗證損失	驗證準確率	驗證前 5 準確率	訓練輪數
4.4859	0.0195	0.0579	4.2995	0.0368	0.0865	0
4.1729	0.0355	0.0987	4.0916	0.0472	0.1266	1
3.9541	0.0666	0.1641	3.8050	0.0781	0.2035	2
3.5823	0.1247	0.2615	3.4015	0.1429	0.2950	3
3.0156	0.1913	0.3987	3.0598	0.1880	0.3916	4
2.4618	0.3077	0.5572	2.9869	0.2056	0.4129	5
1.8979	0.4541	0.7165	2.9507	0.2298	0.4425	6
1.2075	0.6914	0.8886	3.0106	0.2394	0.4425	7
0.6026	0.9097	0.9810	3.0739	0.2428	0.4413	8
0.3098	0.9821	0.9971	3.0737	0.2491	0.4476	9