vit-base-patch16-384-wi3开源图像分类模型 - 精准识别多种图像类型

Vit Base Patch16 384 Wi3

由 Imene 开发

基于Google Vision Transformer (ViT)架构的微调模型，适用于图像分类任务

下载量 21

发布时间 : 9/5/2022

模型简介

该模型是基于google/vit-base-patch16-384预训练模型在未知数据集上微调的版本，主要用于图像分类任务。

高分辨率处理能力

支持384x384像素输入分辨率，适合处理高分辨率图像

高效微调

基于预训练ViT模型微调，在特定任务上表现良好

混合精度训练

使用mixed_float16精度训练，兼顾训练效率和模型精度

图像分类

视觉特征提取

计算机视觉

通用图像分类

对输入图像进行分类识别

验证集准确率61.95%，Top-3准确率82.98%

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	轮数
3.6575	0.0902	0.1945	3.1772	0.2028	0.3980	0
2.5870	0.3473	0.6048	2.3845	0.3717	0.6208	1
1.8813	0.5553	0.7895	2.0262	0.4431	0.7196	2
1.4326	0.6815	0.8754	1.8856	0.4793	0.7384	3
1.0572	0.7989	0.9439	1.6570	0.5369	0.7960	4
0.7740	0.8838	0.9749	1.6103	0.5557	0.7960	5
0.5593	0.9417	0.9900	1.5303	0.5695	0.8173	6
0.4151	0.9709	0.9975	1.4939	0.5795	0.8185	7
0.3176	0.9884	0.9978	1.4553	0.5832	0.8248	8
0.2582	0.9950	0.9991	1.4500	0.6020	0.8248	9
0.2222	0.9978	0.9994	1.4315	0.6108	0.8310	10
0.2020	0.9984	0.9997	1.4297	0.6195	0.8298	11