V

Vit Reg4 B16 Mim

由 birder-project 开发
基于掩码图像建模(MIM)预训练的ViT reg4图像编码器,适用于通用特征提取或下游视觉任务
下载量 70
发布时间 : 4/25/2025

模型简介

这是一个使用掩码图像建模方法预训练的视觉Transformer模型,未针对特定分类任务微调,可作为通用图像特征提取器或下游视觉任务(如目标检测、分割)的骨干网络

模型特点

掩码图像建模预训练
采用MAE(Masked Autoencoder)方法进行自监督预训练,学习强大的视觉表示能力
寄存器增强架构
采用ViT reg4架构,包含寄存器token以提升模型性能
多样化训练数据
在约1100万张多样化图像上训练,涵盖自然场景、鸟类等多种视觉领域

模型能力

图像特征提取
视觉表示学习
下游任务骨干网络

使用案例

计算机视觉
鸟类识别
作为特征提取器用于鸟类识别系统
目标检测
作为骨干网络用于目标检测任务
图像分割
作为编码器用于语义分割任务
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase