vit-base-patch16-384-wi5開源圖像分類模型 - 免費部署精準識別圖像類別

Vit Base Patch16 384 Wi5

由Imene開發

該模型是基於google/vit-base-patch16-384微調的視覺Transformer模型，主要用於圖像分類任務。

下載量 21

發布時間 : 9/6/2022

模型概述

這是一個基於Vision Transformer架構的圖像分類模型，使用patch16-384配置，在特定數據集上進行了微調。

高分辨率處理

支持384x384像素的輸入分辨率

高效微調

在基礎模型上進行針對性微調，適應特定任務

混合精度訓練

使用mixed_float16精度進行訓練，平衡精度和效率

圖像分類

視覺特徵提取

計算機視覺

通用圖像分類

對輸入圖像進行分類識別

驗證準確率49.12%，Top-3準確率73.02%

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	訓練輪數
4.2945	0.0568	0.1328	3.6233	0.1387	0.2916	0
3.1234	0.2437	0.4585	2.8657	0.3041	0.5330	1
2.4383	0.4182	0.6638	2.5499	0.3534	0.6048	2
1.9258	0.5698	0.7913	2.3046	0.4202	0.6583	3
1.4919	0.6963	0.8758	2.1349	0.4553	0.6784	4
1.1127	0.7992	0.9395	2.0878	0.4595	0.6809	5
0.8092	0.8889	0.9720	1.9460	0.4962	0.7210	6
0.5794	0.9419	0.9883	1.9478	0.4979	0.7201	7
0.4102	0.9755	0.9960	1.9021	0.4912	0.7302	8