vit_so400m_patch16_siglip_512.v2_webli開源模型 - 圖像特徵提取助力多語言視覺語言任務

Vit So400m Patch16 Siglip 512.v2 Webli

由timm開發

基於SigLIP 2的視覺Transformer模型，專為圖像特徵提取設計，適用於多語言視覺-語言任務。

下載量 2,766

發布時間 : 2/21/2025

模型概述

該模型是一個SigLIP 2 ViT（僅圖像編碼器），主要用於圖像特徵提取，功能等同於Hugging Face上的ViT-SO400M-16-SigLIP2-512圖像編碼塔。

SigLIP 2增強

採用SigLIP 2架構，具備增強的語義理解、定位和密集特徵提取能力。

多語言支持

設計用於多語言視覺-語言任務，支持跨語言應用。

高效特徵提取

專注於圖像特徵提取，適用於各種下游視覺任務。

圖像特徵提取

視覺語義理解

跨模態對齊

計算機視覺

圖像檢索

利用提取的圖像特徵進行高效圖像檢索。

視覺問答

作為視覺編碼器用於視覺問答系統。

多模態應用

圖文匹配

用於圖像與文本的跨模態匹配任務。

屬性	詳情
數據集	webli
相關論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343