S

Siglip2 Giant Opt Patch16 256

由google開發
SigLIP 2 是一個先進的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
下載量 3,936
發布時間 : 2/17/2025

模型概述

SigLIP 2 在 SigLIP 的基礎上增加了多種訓練目標,適用於零樣本圖像分類和圖文檢索等任務,也可作為視覺編碼器用於其他視覺任務。

模型特點

統一的訓練方案
整合了多項獨立開發的技術,形成了一套統一的訓練方案,提升了模型的綜合能力。
增強的訓練目標
增加了解碼器損失、全局-局部和掩碼預測損失等訓練目標,提升了模型的性能。
寬高比和分辨率適應性
支持不同寬高比和分辨率的輸入,增強了模型的適用性。

模型能力

零樣本圖像分類
圖文檢索
視覺編碼

使用案例

圖像分類
零樣本圖像分類
無需特定訓練即可對圖像進行分類,支持自定義標籤。
在多種數據集上表現出色(具體評估結果見性能部分)
圖文檢索
圖像與文本匹配
可用於檢索與文本描述匹配的圖像,或反之。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase