V

Vit Base Patch16 224.dino

由timm開發
基於自監督DINO方法訓練的Vision Transformer(ViT)圖像特徵模型,適用於圖像分類和特徵提取任務。
下載量 33.45k
發布時間 : 12/22/2022

模型概述

該模型是基於DINO自監督學習方法訓練的Vision Transformer,主要用於圖像分類和作為特徵提取的主幹網絡。

模型特點

自監督學習
使用DINO方法進行自監督訓練,無需大量標註數據即可學習有效的視覺表示。
Vision Transformer架構
採用標準的ViT-B/16架構,將圖像分割為16x16的patch進行處理。
高效特徵提取
可作為特徵提取的主幹網絡,輸出768維的特徵向量。

模型能力

圖像分類
圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
對圖像進行分類,輸出ImageNet-1k中的類別概率。
特徵提取
提取圖像的高級特徵表示,可用於下游任務如目標檢測、圖像檢索等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase