S

Samvit Large Patch16.sa1b

由timm開發
Segment-Anything視覺Transformer(SAM ViT)圖像特徵模型,僅包含特徵提取和微調功能,未包含分割頭。
下載量 124
發布時間 : 5/18/2023

模型概述

該模型是基於SA-1B數據集預訓練的視覺Transformer,主要用於圖像特徵提取和微調任務,權重初始化採用MAE預訓練權重。

模型特點

大尺寸分塊處理
採用16x16的大尺寸分塊策略處理1024x1024分辨率圖像
MAE預訓練初始化
權重初始化採用MAE(Masked Autoencoder)預訓練策略
高計算效率
模型計算量為1493.9 GMACs,激活值2553.8百萬,適合大規模圖像處理

模型能力

圖像特徵提取
圖像分類
圖像嵌入表示

使用案例

計算機視覺
圖像分類
可用於圖像分類任務,提取圖像特徵後進行分類
圖像檢索
通過提取圖像嵌入特徵實現相似圖像檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase