V

Vitreg4 B16 Mim

由birder-project開發
基於掩碼圖像建模(MIM)預訓練的ViT reg4圖像編碼器,適用於通用特徵提取或下游視覺任務
下載量 69
發布時間 : 1/23/2025

模型概述

這是一個採用Vision Transformer架構的圖像編碼器,通過掩碼圖像建模方法預訓練,可作為通用視覺特徵提取器或用於目標檢測、分割等下游任務的骨幹網絡

模型特點

掩碼圖像建模預訓練
採用MAE(Masked Autoencoder)方法進行自監督預訓練,學習強大的視覺表示能力
寄存器增強架構
基於ViT reg4架構,包含特殊寄存器token以提升模型性能
多樣化訓練數據
在包含1100萬張多樣化圖像的數據集上訓練,涵蓋多個專業領域數據集
通用特徵提取
未針對特定任務微調,適合作為各種下游視覺任務的骨幹網絡

模型能力

圖像特徵提取
視覺表示學習
遷移學習

使用案例

計算機視覺
鳥類識別
可作為鳥類識別系統的特徵提取器
目標檢測
作為檢測模型的骨幹網絡
圖像分割
作為分割模型的編碼器部分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase