vit-base-patch16-224-in21k-Wr開源視覺模型 - 免費部署助力圖像分類任務

Vit Base Patch16 224 In21k Wr

由Imene開發

該模型是基於google/vit-base-patch16-224-in21k在未知數據集上微調的視覺Transformer模型，主要用於圖像分類任務。

下載量 21

發布時間 : 9/7/2022

模型概述

這是一個基於Vision Transformer架構的圖像分類模型，在未知數據集上進行了微調，適用於通用的圖像識別任務。

基於預訓練模型微調

基於google/vit-base-patch16-224-in21k預訓練模型進行微調，繼承了強大的圖像特徵提取能力

混合精度訓練

使用mixed_float16精度進行訓練，兼顧訓練速度和模型精度

優化器配置

採用AdamWeightDecay優化器配合PolynomialDecay學習率調度，有助於穩定訓練過程

圖像分類

特徵提取

計算機視覺

通用圖像分類

可用於對常見物體和場景進行分類識別

驗證準確率57.7%，前三準確率80.35%

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	訓練輪數
3.8300	0.0583	0.1381	3.6801	0.0951	0.2203	0
3.2915	0.2418	0.4557	3.0277	0.3004	0.5507	1
2.6535	0.4438	0.7106	2.5932	0.3780	0.6546	2
2.0541	0.6308	0.8575	2.2998	0.4556	0.6871	3
1.4622	0.7924	0.9496	2.0054	0.5056	0.7234	4
0.9098	0.9201	0.9887	1.8079	0.5695	0.7785	5
0.5220	0.9821	0.9969	1.6444	0.5845	0.7922	6
0.3104	0.9956	0.9981	1.6041	0.5770	0.8035	7