V

Vit Small Patch14 Dinov2.lvd142m

由timm開發
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
下載量 35.85k
發布時間 : 5/9/2023

模型概述

這是一個小型的視覺Transformer模型,專門用於圖像特徵提取。它使用DINOv2自監督學習方法在LVD-142M數據集上進行預訓練,能夠生成高質量的圖像表示。

模型特點

自監督學習
採用DINOv2自監督學習方法,無需人工標註即可學習高質量圖像特徵
高效架構
小型ViT架構,參數量適中(22.1M),計算效率高
大尺度預訓練
在LVD-142M大規模數據集上預訓練,學習廣泛視覺特徵

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於圖像分類任務,通過提取的特徵進行分類
視覺搜索
提取圖像特徵用於相似圖像檢索
下游視覺任務
作為預訓練模型,可用於微調各種下游視覺任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase