V

Vit Large Patch14 Dinov2.lvd142m

由timm開發
基於視覺Transformer(ViT)的自監督圖像特徵模型,採用DINOv2方法在LVD-142M數據集上預訓練,適用於圖像分類和特徵提取任務。
下載量 32.01k
發布時間 : 5/9/2023

模型概述

該模型是一種基於視覺Transformer架構的圖像特徵提取模型,通過自監督學習在大型數據集上預訓練,能夠生成高質量的圖像特徵表示,適用於多種計算機視覺任務。

模型特點

自監督預訓練
採用DINOv2自監督學習方法在LVD-142M數據集上預訓練,無需人工標註數據。
大規模模型
擁有304.4百萬參數的大型視覺Transformer架構,能夠捕捉豐富的圖像特徵。
高分辨率處理
支持518×518像素的高分辨率圖像輸入,適合處理細節豐富的視覺內容。

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於對圖像內容進行分類,支持獲取top5預測結果。
特徵提取
可提取高質量的圖像嵌入特徵,用於下游視覺任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase