V

Vit Large Patch14 Dinov2.lvd142m

由pcuenq開發
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
下載量 18
發布時間 : 1/21/2025

模型概述

這是一個大型視覺Transformer模型,主要用於圖像特徵提取和圖像分類任務。模型採用DINOv2自監督學習方法在LVD-142M數據集上進行預訓練,能夠生成高質量的圖像表示。

模型特點

自監督預訓練
採用DINOv2自監督學習方法在LVD-142M數據集上預訓練,無需人工標註數據
大規模視覺Transformer
基於ViT-Large架構,具有304.4百萬參數,能夠處理高分辨率圖像
高分辨率處理能力
支持518×518像素的高分辨率圖像輸入

模型能力

圖像特徵提取
圖像分類
圖像表示學習

使用案例

計算機視覺
圖像分類
可用於各種圖像分類任務,如物體識別、場景分類等
圖像檢索
利用提取的圖像特徵進行相似圖像檢索
視覺表示學習
作為其他視覺任務的基礎模型,如目標檢測、分割等
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase