vit_so400m_patch14_siglip_gap_378.v2_webli開源視覺模型

Vit So400m Patch14 Siglip Gap 378.v2 Webli

由timm開發

基於SigLIP 2架構的視覺Transformer模型，使用WebLI數據集預訓練，移除了注意力池化頭並採用全局平均池化

下載量 20

發布時間 : 2/21/2025

模型概述

該模型是SigLIP 2的視覺編碼器部分，專門用於圖像特徵提取，適用於多模態任務中的視覺理解

SigLIP 2架構改進

採用改進的視覺-語言預訓練架構，增強語義理解和定位能力

全局平均池化

移除了注意力池化頭，使用全局平均池化(GAP)簡化特徵提取

大規模預訓練

在WebLI大規模數據集上進行預訓練，具有強大的視覺表示能力

圖像特徵提取

視覺語義理解

多模態任務視覺編碼

計算機視覺

圖像檢索

提取圖像特徵用於相似圖像搜索

視覺-語言任務

作為多模態模型的視覺編碼器

屬性	詳情
數據集	webli
相關論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343