vit_base_patch16_siglip_384.v2_webli开源图像特征提取模型

Vit Base Patch16 Siglip 384.v2 Webli

Developed by timm

基于SigLIP 2的视觉变换器模型，专为图像特征提取设计，使用webli数据集预训练

Downloads 330

Release Time : 2/21/2025

Model Overview

这是一个SigLIP 2视觉变换器模型，仅包含图像编码器部分，适用于图像特征提取任务。模型基于ViT架构，使用Sigmoid损失进行预训练。

SigLIP 2改进

基于SigLIP 2架构，具有改进的语义理解和定位能力

密集特征提取

能够提取图像的密集特征表示

大规模预训练

使用webli大规模数据集进行预训练

图像特征提取

视觉语义理解

图像定位

计算机视觉

图像检索

使用提取的图像特征进行相似图像检索

视觉定位

识别和定位图像中的关键区域

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343