V

Vit Base Patch32 Siglip Gap 256.v2 Webli

由timm開發
基於SigLIP 2的視覺Transformer模型,使用全局平均池化(GAP)替代注意力池化頭的圖像編碼器
下載量 25
發布時間 : 2/21/2025

模型概述

該模型是SigLIP 2的視覺編碼器部分,專門用於提取圖像特徵。移除了注意力池化頭,採用全局平均池化方式,適用於需要密集圖像特徵的場景。

模型特點

全局平均池化
使用GAP替代注意力池化頭,簡化架構同時保持特徵提取能力
SigLIP2改進
採用SigLIP 2的改進架構,具有更好的語義理解和定位能力
密集特徵提取
特別適合需要密集圖像特徵的下游任務

模型能力

圖像特徵提取
視覺語義理解
圖像定位分析

使用案例

計算機視覺
圖像檢索
基於提取的圖像特徵構建檢索系統
高精度相似圖像匹配
視覺定位
識別圖像中特定對象的位置
精確的對象定位能力
多模態應用
視覺-語言任務
作為視覺編碼器用於圖文匹配等任務
改進的跨模態理解能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase