V

Vit Base Patch14 Dinov2.lvd142m

Developed by timm
基于Vision Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
Downloads 50.71k
Release Time : 5/9/2023

Model Overview

该模型是一个用于图像分类和特征提取的骨干网络,采用Vision Transformer架构,通过自监督学习在大型数据集上预训练,能够提取高质量的图像特征表示。

Model Features

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据
大尺寸图像处理
支持518×518像素的大尺寸图像输入,能够捕捉更丰富的视觉信息
高效特征提取
模型设计优化了计算效率,GMACs运算量为151.7,适合作为特征提取骨干网络

Model Capabilities

图像特征提取
图像分类
视觉表示学习

Use Cases

计算机视觉
图像分类
可用于各种图像分类任务,如物体识别、场景分类等
特征提取
可作为其他视觉任务的骨干网络,提取高质量的图像特征表示
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase