V

Vit Large Patch14 Dinov2.lvd142m

Developed by timm
基于视觉Transformer(ViT)的自监督图像特征模型,采用DINOv2方法在LVD-142M数据集上预训练,适用于图像分类和特征提取任务。
Downloads 32.01k
Release Time : 5/9/2023

Model Overview

该模型是一种基于视觉Transformer架构的图像特征提取模型,通过自监督学习在大型数据集上预训练,能够生成高质量的图像特征表示,适用于多种计算机视觉任务。

Model Features

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据。
大规模模型
拥有304.4百万参数的大型视觉Transformer架构,能够捕捉丰富的图像特征。
高分辨率处理
支持518×518像素的高分辨率图像输入,适合处理细节丰富的视觉内容。

Model Capabilities

图像特征提取
图像分类
视觉表示学习

Use Cases

计算机视觉
图像分类
可用于对图像内容进行分类,支持获取top5预测结果。
特征提取
可提取高质量的图像嵌入特征,用于下游视觉任务。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase