S

Siglip Base Patch16 224

由google開發
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,優化了圖像-文本匹配任務
下載量 250.28k
發布時間 : 9/30/2023

模型概述

SigLIP是CLIP模型的改進版本,通過Sigmoid損失函數優化了圖像與文本的匹配效果,適用於零樣本圖像分類和圖文檢索等任務

模型特點

改進的Sigmoid損失函數
無需全局相似度歸一化,在小批量和大批量場景下均表現優異
高效預訓練
基於WebLI大規模數據集進行預訓練,學習豐富的視覺語言表示
零樣本能力
無需微調即可直接應用於圖像分類和檢索任務

模型能力

零樣本圖像分類
圖文檢索
多模態理解

使用案例

圖像理解
動物識別
識別圖片中的動物類別
可準確區分貓、狗等常見動物
場景理解
理解圖片中的場景和活動
能識別如'播放音樂'、'進行運動'等活動
內容檢索
圖文匹配
根據文本描述檢索相關圖片
高效匹配圖片與描述性文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase