S

Siglip2 So400m Patch14 224

由google開發
SigLIP 2 是基於 SigLIP 改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
下載量 23.11k
發布時間 : 2/17/2025

模型概述

SigLIP 2 是一個視覺語言模型,可用於零樣本圖像分類、圖文檢索等任務,或作為其他視覺任務的視覺編碼器。

模型特點

改進的語義理解
整合了多種技術,提升了模型的語義理解能力。
增強的定位能力
通過全局-局部和掩碼預測損失,提高了模型的定位能力。
密集特徵提取
能夠提取圖像的密集特徵,適用於多種視覺任務。
寬高比和分辨率適應性
支持不同寬高比和分辨率的圖像輸入。

模型能力

零樣本圖像分類
圖文檢索
視覺編碼

使用案例

圖像分類
零樣本圖像分類
無需訓練即可對圖像進行分類,支持自定義標籤。
在多種數據集上表現優異。
圖文檢索
圖文匹配
根據文本描述檢索相關圖像,或根據圖像生成相關文本描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase