vit-base-patch16-224-in21k-wwwwii開源視覺分類模型

Vit Base Patch16 224 In21k Wwwwii

由Imene開發

基於Google Vision Transformer (ViT)基礎模型微調的視覺分類模型，適用於圖像分類任務

下載量 21

發布時間 : 9/2/2022

模型概述

該模型是基於google/vit-base-patch16-224-in21k預訓練模型在未知數據集上微調的版本，主要用於圖像分類任務。

基於ViT架構

採用Vision Transformer架構，使用16x16圖像塊處理輸入

遷移學習

基於ImageNet-21k預訓練模型微調，具有較好的特徵提取能力

高效分類

在驗證集上達到62.67%的準確率和83.49%的Top-3準確率

圖像分類

視覺特徵提取

計算機視覺

通用圖像分類

對輸入圖像進行分類識別

驗證準確率62.67%

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	訓練輪數
3.6793	0.125	0.2805	3.4078	0.2151	0.4756	0
3.1763	0.3448	0.6265	3.0167	0.4209	0.6640	1
2.7546	0.5419	0.7852	2.6634	0.5326	0.7651	2
2.3537	0.6855	0.8843	2.3971	0.5547	0.7860	3
1.9989	0.7814	0.9279	2.2236	0.5837	0.7907	4
1.6670	0.875	0.9698	2.0757	0.5977	0.7907	5
1.3815	0.9352	0.9890	1.8921	0.6198	0.8174	6
1.1407	0.9651	0.9956	1.7976	0.6244	0.8174	7
0.9451	0.9866	0.9983	1.7227	0.6349	0.8267	8
0.8024	0.9939	0.9997	1.6739	0.6267	0.8349	9