V

Vit Small Patch14 Reg4 Dinov2.lvd142m

由timm開發
一種帶有寄存器的視覺Transformer(ViT)圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
下載量 15.98k
發布時間 : 10/30/2023

模型概述

該模型主要用於圖像分類和特徵提取,採用視覺Transformer架構,並結合寄存器機制提升性能。

模型特點

寄存器機制
採用寄存器機制提升視覺Transformer的性能,解決傳統ViT模型中的問題。
自監督預訓練
使用DINOv2自監督學習方法在LVD-142M數據集上進行預訓練,無需人工標註。
高效特徵提取
模型參數量較小(22.1M),但能高效提取圖像特徵,適用於多種下游任務。

模型能力

圖像分類
圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於通用圖像分類任務,如識別物體、場景等。
特徵提取
提取圖像特徵用於下游任務,如目標檢測、圖像檢索等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase