S

Siglip Large Patch16 256

由google開發
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數提升性能
下載量 24.13k
發布時間 : 1/8/2024

模型概述

SigLIP是改進損失函數後的CLIP多模態模型,適用於零樣本圖像分類、圖文檢索等任務

模型特點

改進的損失函數
採用sigmoid損失函數,無需全局歸一化,在小批次和大批次場景下均表現優異
高效預訓練
在16塊TPU-v4芯片上僅需三天完成訓練
多模態理解
同時處理圖像和文本信息,實現跨模態語義對齊

模型能力

零樣本圖像分類
圖文相似度計算
跨模態檢索

使用案例

內容理解
社交媒體圖片分類
無需訓練即可對用戶上傳圖片進行自動分類
準確率優於傳統CLIP模型
電子商務
商品圖文匹配
自動檢測商品圖片與描述文本的一致性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase