V

Vit Reg4 B16 Mim

由birder-project開發
基於掩碼圖像建模(MIM)預訓練的ViT reg4圖像編碼器,適用於通用特徵提取或下游視覺任務
下載量 70
發布時間 : 4/25/2025

模型概述

這是一個使用掩碼圖像建模方法預訓練的視覺Transformer模型,未針對特定分類任務微調,可作為通用圖像特徵提取器或下游視覺任務(如目標檢測、分割)的骨幹網絡

模型特點

掩碼圖像建模預訓練
採用MAE(Masked Autoencoder)方法進行自監督預訓練,學習強大的視覺表示能力
寄存器增強架構
採用ViT reg4架構,包含寄存器token以提升模型性能
多樣化訓練數據
在約1100萬張多樣化圖像上訓練,涵蓋自然場景、鳥類等多種視覺領域

模型能力

圖像特徵提取
視覺表示學習
下游任務骨幹網絡

使用案例

計算機視覺
鳥類識別
作為特徵提取器用於鳥類識別系統
目標檢測
作為骨幹網絡用於目標檢測任務
圖像分割
作為編碼器用於語義分割任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase