vit_base_patch16_siglip_gap_384.v2_webli开源模型

Vit Base Patch16 Siglip Gap 384.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，使用全局平均池化(GAP)替代注意力池化头，适用于图像特征提取任务。

下载量 105

发布时间 : 2/21/2025

模型简介

该模型是SigLIP 2的视觉变换器(ViT)实现，专门用于提取图像特征。移除了注意力池化头，改用全局平均池化，适合需要密集特征的视觉任务。

全局平均池化

使用GAP替代注意力池化头，简化模型结构同时保留重要特征

SigLIP 2改进

基于SigLIP 2架构，具有改进的语义理解、定位和密集特征能力

高分辨率支持

支持384×384分辨率输入，适合需要精细特征的任务

图像特征提取

视觉语义理解

密集特征生成

计算机视觉

图像检索

提取图像特征用于相似图像搜索

视觉定位

识别图像中的特定对象或区域

多模态应用

视觉-语言任务

作为视觉编码器用于图文匹配等任务

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343