S

Siglip Base Patch16 512

由google開發
SigLIP是基於WebLi數據集預訓練的視覺-語言模型,採用改進的sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
下載量 237.79k
發布時間 : 1/8/2024

模型概述

SigLIP是改進損失函數後的CLIP多模態模型,其sigmoid損失函數僅作用於圖像-文本對,無需通過全局相似度進行歸一化,使得模型在擴大批處理規模的同時,也能在小批量場景下表現更優。

模型特點

改進的sigmoid損失函數
僅作用於圖像-文本對,無需全局相似度歸一化,提升小批量場景性能
高效預訓練
在WebLi數據集上預訓練,支持512x512分辨率圖像處理
零樣本學習能力
無需微調即可直接應用於圖像分類和檢索任務

模型能力

零樣本圖像分類
圖文檢索
多模態理解

使用案例

圖像理解
動物圖像分類
識別圖像中的動物類別(如貓、狗)
可準確區分不同動物類別
場景理解
識別圖像中的場景或活動(如播放音樂、進行運動)
能理解複雜場景中的活動類型
內容檢索
圖文匹配
根據文本描述檢索相關圖像
高效匹配文本與圖像內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase