V

Vit Base Patch16 384 Wi3

由 Imene 开发
基于Google Vision Transformer (ViT)架构的微调模型,适用于图像分类任务
下载量 21
发布时间 : 9/5/2022

模型简介

该模型是基于google/vit-base-patch16-384预训练模型在未知数据集上微调的版本,主要用于图像分类任务。

模型特点

高分辨率处理能力
支持384x384像素输入分辨率,适合处理高分辨率图像
高效微调
基于预训练ViT模型微调,在特定任务上表现良好
混合精度训练
使用mixed_float16精度训练,兼顾训练效率和模型精度

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
对输入图像进行分类识别
验证集准确率61.95%,Top-3准确率82.98%
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase