V

Vit Base Patch16 Siglip Gap 384.v2 Webli

由timm開發
基於SigLIP 2的ViT圖像編碼器,使用全局平均池化(GAP)替代注意力池化頭,適用於圖像特徵提取任務。
下載量 105
發布時間 : 2/21/2025

模型概述

該模型是SigLIP 2的視覺變換器(ViT)實現,專門用於提取圖像特徵。移除了注意力池化頭,改用全局平均池化,適合需要密集特徵的視覺任務。

模型特點

全局平均池化
使用GAP替代注意力池化頭,簡化模型結構同時保留重要特徵
SigLIP 2改進
基於SigLIP 2架構,具有改進的語義理解、定位和密集特徵能力
高分辨率支持
支持384×384分辨率輸入,適合需要精細特徵的任務

模型能力

圖像特徵提取
視覺語義理解
密集特徵生成

使用案例

計算機視覺
圖像檢索
提取圖像特徵用於相似圖像搜索
視覺定位
識別圖像中的特定對象或區域
多模態應用
視覺-語言任務
作為視覺編碼器用於圖文匹配等任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase