V

Vit Giant Patch14 Dinov2.lvd142m

Developed by timm
基于视觉Transformer(ViT)的巨型图像特征提取模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
Downloads 6,911
Release Time : 5/9/2023

Model Overview

这是一个视觉Transformer架构的巨型模型,专门用于图像特征提取和图像分类任务。模型采用DINOv2自监督学习方法在大型数据集上预训练,能够生成高质量的图像表示。

Model Features

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据
巨型模型架构
基于ViT-Giant架构,具有1136.5百万参数,能够捕获更丰富的图像特征
高分辨率处理
支持518×518像素的高分辨率图像输入,适合处理细节丰富的视觉内容
多功能输出
既可输出分类结果,也可输出原始图像特征嵌入,适用于多种下游任务

Model Capabilities

图像特征提取
图像分类
生成图像嵌入表示
视觉内容理解

Use Cases

计算机视觉
图像分类
对输入图像进行分类,输出最可能的类别
在多种视觉基准测试中表现优异
特征提取
提取图像的深度特征表示,用于下游任务
生成的高质量特征可用于检索、匹配等任务
内容理解
视觉内容分析
分析图像内容,理解其中的视觉元素和场景
能够捕获图像中的高级语义信息
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase