V

Vit Small Patch16 224.dino

由timm開發
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINO方法訓練,適用於圖像分類和特徵提取任務。
下載量 70.62k
發布時間 : 12/22/2022

模型概述

該模型是一種基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINO方法訓練。主要用於圖像分類和作為特徵主幹網絡,適用於各種計算機視覺任務。

模型特點

自監督學習
採用DINO自監督學習方法訓練,無需大量標註數據即可學習有效的視覺表示。
高效架構
基於Vision Transformer架構,參數量為21.7M,GMACs運算量為4.3,適合中等規模計算需求。
多任務支持
既可用於圖像分類,也可作為特徵提取主幹網絡,支持多種下游計算機視覺任務。

模型能力

圖像特徵提取
圖像分類
計算機視覺任務支持

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,輸出類別概率分佈。
在ImageNet-1k數據集上表現良好
特徵提取
提取圖像的深度特徵表示,可用於下游任務如目標檢測、圖像檢索等。
提供384維特徵向量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase