V

Vit Giant Patch14 Dinov2.lvd142m

由 timm 开发
基于视觉Transformer(ViT)的巨型图像特征提取模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
下载量 6,911
发布时间 : 5/9/2023

模型简介

这是一个视觉Transformer架构的巨型模型,专门用于图像特征提取和图像分类任务。模型采用DINOv2自监督学习方法在大型数据集上预训练,能够生成高质量的图像表示。

模型特点

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据
巨型模型架构
基于ViT-Giant架构,具有1136.5百万参数,能够捕获更丰富的图像特征
高分辨率处理
支持518×518像素的高分辨率图像输入,适合处理细节丰富的视觉内容
多功能输出
既可输出分类结果,也可输出原始图像特征嵌入,适用于多种下游任务

模型能力

图像特征提取
图像分类
生成图像嵌入表示
视觉内容理解

使用案例

计算机视觉
图像分类
对输入图像进行分类,输出最可能的类别
在多种视觉基准测试中表现优异
特征提取
提取图像的深度特征表示,用于下游任务
生成的高质量特征可用于检索、匹配等任务
内容理解
视觉内容分析
分析图像内容,理解其中的视觉元素和场景
能够捕获图像中的高级语义信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase