vit-base-patch16-384-wi3開源圖像分類模型 - 精準識別多種圖像類型

Vit Base Patch16 384 Wi3

Developed by Imene

基於Google Vision Transformer (ViT)架構的微調模型，適用於圖像分類任務

Downloads 21

Release Time : 9/5/2022

Model Overview

該模型是基於google/vit-base-patch16-384預訓練模型在未知數據集上微調的版本，主要用於圖像分類任務。

高分辨率處理能力

支持384x384像素輸入分辨率，適合處理高分辨率圖像

高效微調

基於預訓練ViT模型微調，在特定任務上表現良好

混合精度訓練

使用mixed_float16精度訓練，兼顧訓練效率和模型精度

圖像分類

視覺特徵提取

計算機視覺

通用圖像分類

對輸入圖像進行分類識別

驗證集準確率61.95%，Top-3準確率82.98%

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	輪數
3.6575	0.0902	0.1945	3.1772	0.2028	0.3980	0
2.5870	0.3473	0.6048	2.3845	0.3717	0.6208	1
1.8813	0.5553	0.7895	2.0262	0.4431	0.7196	2
1.4326	0.6815	0.8754	1.8856	0.4793	0.7384	3
1.0572	0.7989	0.9439	1.6570	0.5369	0.7960	4
0.7740	0.8838	0.9749	1.6103	0.5557	0.7960	5
0.5593	0.9417	0.9900	1.5303	0.5695	0.8173	6
0.4151	0.9709	0.9975	1.4939	0.5795	0.8185	7
0.3176	0.9884	0.9978	1.4553	0.5832	0.8248	8
0.2582	0.9950	0.9991	1.4500	0.6020	0.8248	9
0.2222	0.9978	0.9994	1.4315	0.6108	0.8310	10
0.2020	0.9984	0.9997	1.4297	0.6195	0.8298	11