S

Siglip Base Patch16 256 Multilingual

由google開發
SigLIP是基於WebLi數據集預訓練的改進版CLIP模型,採用Sigmoid損失函數優化圖像-文本匹配任務
下載量 175.86k
發布時間 : 1/8/2024

模型概述

多模態視覺語言模型,適用於零樣本圖像分類和圖文檢索任務,支持多語言文本輸入

模型特點

Sigmoid損失函數
改進的損失函數僅需圖像-文本對計算,無需全局相似度歸一化,提升小批次訓練效果
多語言支持
支持多語言文本輸入,適用於跨語言視覺理解任務
高效預訓練
在16塊TPU-v4芯片上僅需3天完成訓練

模型能力

零樣本圖像分類
圖文相似度計算
多語言視覺理解

使用案例

內容理解
社交媒體圖片分類
無需微調即可對用戶上傳圖片進行多標籤分類
準確率優於傳統CLIP模型(見論文對比)
跨模態檢索
圖文搜索引擎
實現文本查詢匹配相關圖片或反向搜索功能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase