V

Vit Giant Patch14 Dinov2.lvd142m

由timm開發
基於視覺Transformer(ViT)的巨型圖像特徵提取模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
下載量 6,911
發布時間 : 5/9/2023

模型概述

這是一個視覺Transformer架構的巨型模型,專門用於圖像特徵提取和圖像分類任務。模型採用DINOv2自監督學習方法在大型數據集上預訓練,能夠生成高質量的圖像表示。

模型特點

自監督預訓練
採用DINOv2自監督學習方法在LVD-142M數據集上預訓練,無需人工標註數據
巨型模型架構
基於ViT-Giant架構,具有1136.5百萬參數,能夠捕獲更豐富的圖像特徵
高分辨率處理
支持518×518像素的高分辨率圖像輸入,適合處理細節豐富的視覺內容
多功能輸出
既可輸出分類結果,也可輸出原始圖像特徵嵌入,適用於多種下游任務

模型能力

圖像特徵提取
圖像分類
生成圖像嵌入表示
視覺內容理解

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,輸出最可能的類別
在多種視覺基準測試中表現優異
特徵提取
提取圖像的深度特徵表示,用於下游任務
生成的高質量特徵可用於檢索、匹配等任務
內容理解
視覺內容分析
分析圖像內容,理解其中的視覺元素和場景
能夠捕獲圖像中的高級語義信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase