vit-base-patch16-384-wi4開源圖像分類模型 - 免費用於精準圖像分類任務

Vit Base Patch16 384 Wi4

由Imene開發

基於google/vit-base-patch16-384微調的視覺Transformer模型，適用於圖像分類任務

下載量 21

發布時間 : 9/6/2022

模型概述

該模型是基於Vision Transformer (ViT)架構的圖像分類模型，經過特定數據集的微調，可用於圖像識別和分類任務

高分辨率處理

支持384x384像素的高分辨率圖像輸入

遷移學習

基於預訓練的ViT模型進行微調，適用於特定領域的圖像分類任務

高效訓練

使用混合精度訓練(mixed_float16)提高訓練效率

圖像分類

視覺特徵提取

遷移學習

計算機視覺

通用圖像分類

對輸入圖像進行分類，輸出類別概率

在驗證集上達到57.46%的準確率

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	訓練輪數
3.7777	0.0845	0.1855	3.3754	0.1543	0.3014	0
2.7253	0.3277	0.5560	2.4975	0.3452	0.5892	1
2.0079	0.5236	0.7589	2.1228	0.4234	0.6882	2
1.5256	0.6663	0.8549	1.9117	0.4734	0.7445	3
1.1602	0.7712	0.9270	1.8059	0.5162	0.7560	4
0.8509	0.8659	0.9614	1.6534	0.5516	0.7758	5
0.5955	0.9353	0.9836	1.6139	0.5610	0.7935	6
0.4229	0.9687	0.9940	1.5655	0.5631	0.7925	7
0.3045	0.9859	0.9979	1.5290	0.5714	0.7987	8
0.2221	0.9958	0.9990	1.5061	0.5954	0.8008	9
0.1742	0.9982	0.9997	1.5010	0.5746	0.8040	10