開源SigLIP 2 ViT模型 - 免費實現圖像特徵提取，基於WebLI數據集訓練

Vit So400m Patch16 Siglip 256.v2 Webli

由timm開發

SigLIP 2 ViT模型，僅包含圖像編碼器部分，用於圖像特徵提取，基於WebLI數據集訓練。

下載量 12.56k

發布時間 : 2/21/2025

模型概述

這是一個基於SigLIP 2架構的視覺變換器(ViT)模型，專門用於圖像特徵提取。它採用了Sigmoid損失函數進行語言圖像預訓練，具有改進的語義理解和定位能力。

SigLIP 2架構

採用改進的SigLIP 2架構，具有更好的語義理解和定位能力

Sigmoid損失函數

使用Sigmoid損失進行語言圖像預訓練，提高模型性能

密集特徵提取

能夠提取圖像的密集特徵，適用於各種下游視覺任務

圖像特徵提取

語義理解

圖像定位

計算機視覺

圖像檢索

利用提取的圖像特徵進行相似圖像檢索

視覺問答

作為視覺問答系統的圖像編碼器

多模態應用

圖文匹配

用於評估圖像和文本描述的匹配程度

屬性	詳情
數據集	webli
相關論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343