vit-base-patch16-384-wi5开源图像分类模型 - 免费部署精准识别图像类别

Vit Base Patch16 384 Wi5

由 Imene 开发

该模型是基于google/vit-base-patch16-384微调的视觉Transformer模型，主要用于图像分类任务。

下载量 21

发布时间 : 9/6/2022

模型简介

这是一个基于Vision Transformer架构的图像分类模型，使用patch16-384配置，在特定数据集上进行了微调。

高分辨率处理

支持384x384像素的输入分辨率

高效微调

在基础模型上进行针对性微调，适应特定任务

混合精度训练

使用mixed_float16精度进行训练，平衡精度和效率

图像分类

视觉特征提取

计算机视觉

通用图像分类

对输入图像进行分类识别

验证准确率49.12%，Top-3准确率73.02%

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	训练轮数
4.2945	0.0568	0.1328	3.6233	0.1387	0.2916	0
3.1234	0.2437	0.4585	2.8657	0.3041	0.5330	1
2.4383	0.4182	0.6638	2.5499	0.3534	0.6048	2
1.9258	0.5698	0.7913	2.3046	0.4202	0.6583	3
1.4919	0.6963	0.8758	2.1349	0.4553	0.6784	4
1.1127	0.7992	0.9395	2.0878	0.4595	0.6809	5
0.8092	0.8889	0.9720	1.9460	0.4962	0.7210	6
0.5794	0.9419	0.9883	1.9478	0.4979	0.7201	7
0.4102	0.9755	0.9960	1.9021	0.4912	0.7302	8