S

Siglip2 Base Patch16 256

由google開發
SigLIP 2是一個多語言視覺語言編碼器,改進了語義理解、定位和密集特徵提取能力。
下載量 45.24k
發布時間 : 2/17/2025

模型概述

SigLIP 2在SigLIP的基礎上整合了多項技術,提升了視覺語言任務的性能,可用於零樣本圖像分類和圖文檢索等任務。

模型特點

改進的語義理解
通過整合解碼器損失等技術,提升了模型的語義理解能力。
增強的定位能力
採用全局-局部和掩碼預測損失,提高了模型的定位精度。
密集特徵提取
優化了密集特徵提取能力,適用於多種視覺任務。
寬高比和分辨率適應性
支持多種寬高比和分辨率,增強了模型的適應性。

模型能力

零樣本圖像分類
圖文檢索
視覺特徵提取

使用案例

圖像分類
零樣本圖像分類
無需微調即可對圖像進行分類,支持自定義標籤。
在多種數據集上表現優異。
圖文檢索
跨模態檢索
根據文本檢索相關圖像,或根據圖像檢索相關文本。
在WebLI數據集上預訓練,具有強大的檢索能力。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase