V

Vit L16 Mim

由birder-project開發
一個使用掩碼圖像建模(MIM)預訓練的ViT-L16圖像編碼器,適用於通用特徵提取或下游任務
下載量 73
發布時間 : 1/24/2025

模型概述

該模型是基於Vision Transformer架構的圖像編碼器,通過掩碼圖像建模預訓練,未針對特定分類任務微調,適合作為目標檢測、分割或自定義分類任務的骨幹網絡。

模型特點

掩碼圖像建模預訓練
採用自監督的掩碼圖像建模方法進行預訓練,能學習到更通用的圖像特徵表示
大規模多樣化數據集
在約1100萬張多樣化圖像上訓練,涵蓋自然場景、鳥類等多領域數據
通用特徵提取
未針對特定任務微調,可作為各類視覺任務的骨幹網絡

模型能力

圖像特徵提取
圖像嵌入生成
視覺表示學習

使用案例

計算機視覺
鳥類識別
作為鳥類識別系統的特徵提取器
目標檢測
作為目標檢測模型的骨幹網絡
圖像分割
作為圖像分割模型的編碼器部分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase