vit_so400m_patch14_siglip_gap_378.v2_webli Open-source Visual Model - Supports Application Requirements such as Image Analysis

Vit So400m Patch14 Siglip Gap 378.v2 Webli

Developed by timm

Vision Transformer model based on SigLIP 2 architecture, pre-trained on WebLI dataset, with attention pooling head removed and global average pooling applied

Image Classification

Transformers

Open Source License:Apache-2.0 #Multimodal Visual Encoding #Global Average Pooling #High Semantic Understanding

Downloads 20

Release Time : 2/21/2025

Model Overview

This model is the visual encoder component of SigLIP 2, specifically designed for image feature extraction, suitable for visual understanding in multimodal tasks

Model Features

SigLIP 2 Architecture Improvements

Utilizes an enhanced vision-language pre-training architecture for improved semantic understanding and localization capabilities

Global Average Pooling

Removes attention pooling head and simplifies feature extraction with Global Average Pooling (GAP)

Large-Scale Pre-training

Pre-trained on the large-scale WebLI dataset, providing robust visual representation capabilities

Model Capabilities

Image Feature Extraction

Visual Semantic Understanding

Multimodal Task Visual Encoding

Use Cases

Computer Vision

Image Retrieval

Extracts image features for similar image search

Vision-Language Tasks

Serves as the visual encoder for multimodal models

Property	Details
Dataset	webli
Papers	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit So400m Patch14 Siglip Gap 378.v2 Webli

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Model card for vit_so400m_patch14_siglip_gap_378.v2_webli

🚀 Quick Start

📚 Documentation

Model Details

Citation

📄 License