V

Vit L16 Mim

由 birder-project 开发
一个使用掩码图像建模(MIM)预训练的ViT-L16图像编码器,适用于通用特征提取或下游任务
下载量 73
发布时间 : 1/24/2025

模型简介

该模型是基于Vision Transformer架构的图像编码器,通过掩码图像建模预训练,未针对特定分类任务微调,适合作为目标检测、分割或自定义分类任务的骨干网络。

模型特点

掩码图像建模预训练
采用自监督的掩码图像建模方法进行预训练,能学习到更通用的图像特征表示
大规模多样化数据集
在约1100万张多样化图像上训练,涵盖自然场景、鸟类等多领域数据
通用特征提取
未针对特定任务微调,可作为各类视觉任务的骨干网络

模型能力

图像特征提取
图像嵌入生成
视觉表示学习

使用案例

计算机视觉
鸟类识别
作为鸟类识别系统的特征提取器
目标检测
作为目标检测模型的骨干网络
图像分割
作为图像分割模型的编码器部分
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase