V

Vit Base Patch16 224.dino

Developed by timm
基於自監督DINO方法訓練的Vision Transformer(ViT)圖像特徵模型,適用於圖像分類和特徵提取任務。
Downloads 33.45k
Release Time : 12/22/2022

Model Overview

該模型是基於DINO自監督學習方法訓練的Vision Transformer,主要用於圖像分類和作為特徵提取的主幹網絡。

Model Features

自監督學習
使用DINO方法進行自監督訓練,無需大量標註數據即可學習有效的視覺表示。
Vision Transformer架構
採用標準的ViT-B/16架構,將圖像分割為16x16的patch進行處理。
高效特徵提取
可作為特徵提取的主幹網絡,輸出768維的特徵向量。

Model Capabilities

圖像分類
圖像特徵提取
視覺表示學習

Use Cases

計算機視覺
圖像分類
對圖像進行分類,輸出ImageNet-1k中的類別概率。
特徵提取
提取圖像的高級特徵表示,可用於下游任務如目標檢測、圖像檢索等。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase