V

Vit Base Patch16 384 Wi5

由 Imene 开发
该模型是基于google/vit-base-patch16-384微调的视觉Transformer模型,主要用于图像分类任务。
下载量 21
发布时间 : 9/6/2022

模型简介

这是一个基于Vision Transformer架构的图像分类模型,使用patch16-384配置,在特定数据集上进行了微调。

模型特点

高分辨率处理
支持384x384像素的输入分辨率
高效微调
在基础模型上进行针对性微调,适应特定任务
混合精度训练
使用mixed_float16精度进行训练,平衡精度和效率

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
对输入图像进行分类识别
验证准确率49.12%,Top-3准确率73.02%
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase