D

Dino Vitb16

由facebook開發
基於DINO自監督方法訓練的視覺Transformer模型,採用ViT架構,在ImageNet-1k數據集上預訓練。
下載量 122.46k
發布時間 : 3/2/2022

模型概述

該模型通過自監督學習在ImageNet-1k數據集上預訓練,能夠提取圖像特徵用於下游視覺任務。模型採用16×16圖像塊分割方式,不包含微調頭部。

模型特點

自監督學習
採用DINO方法進行自監督訓練,無需人工標註數據即可學習圖像特徵
ViT架構
基於Transformer編碼器架構處理圖像,將圖像分割為16×16像素塊進行序列化處理
通用特徵提取
預訓練模型可提取通用圖像特徵,適用於多種下游視覺任務

模型能力

圖像特徵提取
圖像分類(需添加分類頭)
視覺表示學習

使用案例

計算機視覺
圖像分類
在模型頂部添加線性層,可用於圖像分類任務
特徵提取
提取圖像特徵用於目標檢測、分割等下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase