V

Vit Base Patch14 Dinov2.lvd142m

由timm開發
基於Vision Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
下載量 50.71k
發布時間 : 5/9/2023

模型概述

該模型是一個用於圖像分類和特徵提取的骨幹網絡,採用Vision Transformer架構,通過自監督學習在大型數據集上預訓練,能夠提取高質量的圖像特徵表示。

模型特點

自監督預訓練
採用DINOv2自監督學習方法在LVD-142M數據集上預訓練,無需人工標註數據
大尺寸圖像處理
支持518×518像素的大尺寸圖像輸入,能夠捕捉更豐富的視覺信息
高效特徵提取
模型設計優化了計算效率,GMACs運算量為151.7,適合作為特徵提取骨幹網絡

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於各種圖像分類任務,如物體識別、場景分類等
特徵提取
可作為其他視覺任務的骨幹網絡,提取高質量的圖像特徵表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase