V

Vit L16 Mim

Developed by birder-project
一個使用掩碼圖像建模(MIM)預訓練的ViT-L16圖像編碼器,適用於通用特徵提取或下游任務
Downloads 73
Release Time : 1/24/2025

Model Overview

該模型是基於Vision Transformer架構的圖像編碼器,通過掩碼圖像建模預訓練,未針對特定分類任務微調,適合作為目標檢測、分割或自定義分類任務的骨幹網絡。

Model Features

掩碼圖像建模預訓練
採用自監督的掩碼圖像建模方法進行預訓練,能學習到更通用的圖像特徵表示
大規模多樣化數據集
在約1100萬張多樣化圖像上訓練,涵蓋自然場景、鳥類等多領域數據
通用特徵提取
未針對特定任務微調,可作為各類視覺任務的骨幹網絡

Model Capabilities

圖像特徵提取
圖像嵌入生成
視覺表示學習

Use Cases

計算機視覺
鳥類識別
作為鳥類識別系統的特徵提取器
目標檢測
作為目標檢測模型的骨幹網絡
圖像分割
作為圖像分割模型的編碼器部分
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase