vit-base-patch16-224-in21k-iiii開源圖像分類模型

Vit Base Patch16 224 In21k Iiii

由Imene開發

該模型是基於google/vit-base-patch16-224-in21k微調的視覺Transformer模型，主要用於圖像分類任務。

下載量 21

發布時間 : 9/2/2022

模型概述

這是一個基於Vision Transformer架構的圖像分類模型，經過特定數據集的微調，可用於圖像識別和分類任務。

基於ViT架構

採用Vision Transformer架構，利用自注意力機制處理圖像數據

遷移學習

基於預訓練的vit-base-patch16-224-in21k模型進行微調

混合精度訓練

使用mixed_float16精度進行訓練，提高訓練效率

圖像分類

特徵提取

計算機視覺

通用圖像分類

對輸入圖像進行分類識別

在驗證集上達到39.07%的準確率

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	輪數
3.8068	0.0843	0.2108	3.6116	0.1721	0.3593	0
3.4497	0.2735	0.4840	3.3654	0.2779	0.4953	1
3.1913	0.3991	0.6314	3.1839	0.3512	0.5977	2
3.0017	0.4878	0.7311	3.0867	0.3872	0.6233	3
2.8947	0.5439	0.7916	3.0482	0.3907	0.6302	4