V

Vit Large Patch14 Reg4 Dinov2.lvd142m

由timm開發
帶有寄存器的視覺變換器(ViT)圖像特徵模型,使用自監督的DINOv2方法在LVD-142M數據集上進行預訓練。
下載量 119.48k
發布時間 : 10/30/2023

模型概述

該模型是一種視覺變換器(ViT)架構的圖像特徵提取模型,主要用於圖像分類和特徵提取任務。通過自監督學習在大型數據集上預訓練,能夠提取高質量的圖像特徵。

模型特點

寄存器增強
模型採用了寄存器機制,增強了視覺變換器的性能,特別是在處理圖像背景和無關信息時表現更優。
自監督預訓練
使用DINOv2自監督學習方法在LVD-142M數據集上進行預訓練,無需人工標註即可學習強大的視覺特徵。
大尺寸輸入支持
支持518x518像素的大尺寸圖像輸入,能夠捕捉更豐富的視覺細節。

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於通用圖像分類任務,如物體識別、場景分類等。
特徵提取
可作為其他視覺任務的骨幹網絡,提供高質量的圖像特徵表示。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase