vit_so400m_patch14_siglip_gap_224.v2_webli开源模型 - 高效用于图像特征提取任务

Vit So400m Patch14 Siglip Gap 224.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

下载量 179

发布时间 : 2/21/2025

模型简介

这是一个专为timm设计的SigLIP 2 ViT图像编码器，等效于HuggingFace上的ViT-SO400M-14-SigLIP2模型的图像塔部分。该gap变体使用全局平均池化替代了注意力池化头。

SigLIP 2架构

采用改进的SigLIP 2架构，具有更好的语义理解、定位和密集特征提取能力

全局平均池化

使用全局平均池化(gap)替代注意力池化头，简化模型结构

大规模预训练

在webli数据集上进行预训练，具有强大的视觉表示能力

图像特征提取

视觉语义理解

图像定位

密集特征提取

计算机视觉

图像分类

可作为图像分类任务的特征提取器

视觉问答

为视觉问答系统提供图像特征表示

多模态应用

图文匹配

用于图文匹配任务中的图像编码

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343