vit-base-patch16-224-in21k-wwwwii開源圖像分類模型

Vit Base Patch16 224 In21k Wwwwii

由Zynovia開發

該模型是基於Google的ViT模型在未知數據集上微調的版本，主要用於圖像分類任務。

下載量 22

發布時間 : 9/3/2022

模型概述

這是一個基於Vision Transformer (ViT)架構的圖像分類模型，在google/vit-base-patch16-224-in21k基礎上進行了微調。

基於ViT架構

使用Vision Transformer架構，適合處理圖像數據

微調版本

在Google預訓練模型基礎上進行了微調

中等規模

基於ViT-base架構，參數規模適中

圖像分類

特徵提取

計算機視覺

通用圖像分類

可用於對常見物體和場景進行分類

驗證準確率58.45%，Top-3準確率78.45%

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	輪數
3.4972	0.1475	0.3067	3.0825	0.3240	0.5178	0
2.7352	0.4129	0.6613	2.4838	0.4543	0.6930	1
2.0429	0.6153	0.8315	1.9934	0.5690	0.7550	2
1.4246	0.7672	0.9166	1.6714	0.5876	0.8016	3
0.8976	0.8813	0.9721	1.6144	0.5845	0.7845	4