vit_base_patch16_siglip_256.v2_webli開源圖像編碼器 - 提取特徵支持多語言視覺任務

Vit Base Patch16 Siglip 256.v2 Webli

由timm開發

基於SigLIP 2的ViT圖像編碼器，用於提取圖像特徵，支持多語言視覺-語言任務。

下載量 731

發布時間 : 2/21/2025

模型概述

這是一個基於SigLIP 2的Vision Transformer模型，專門用於圖像特徵提取。它是SigLIP 2論文中描述的視覺編碼器部分，適用於各種視覺-語言任務。

改進的語義理解

基於SigLIP 2架構，具有增強的語義理解能力

定位能力

改進了圖像中對象的定位能力

密集特徵提取

能夠提取更豐富的密集圖像特徵

Sigmoid損失函數

使用Sigmoid損失進行語言圖像預訓練，提高了模型性能

圖像特徵提取

視覺-語言理解

多模態表示學習

計算機視覺

圖像檢索

使用提取的圖像特徵進行高效的圖像檢索

視覺問答

作為視覺編碼器用於視覺問答系統

多模態應用

圖文匹配

用於圖像和文本的匹配任務

屬性	詳情
數據集	webli
相關論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343