S

Siglip So400m Patch14 384

由google開發
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
下載量 6.1M
發布時間 : 1/8/2024

模型概述

SigLIP是改進損失函數版本的CLIP多模態模型,適用於零樣本圖像分類和圖文檢索等任務。其sigmoid損失函數無需通過全局相似度進行歸一化,使得模型在不同批次規模下表現更優。

模型特點

改進的損失函數
採用sigmoid損失函數,僅作用於圖像-文本對,無需全局相似度歸一化,優化了小批次和大批次下的表現。
計算最優形狀優化
基於SoViT-400m架構,通過計算最優形狀優化設計,提升模型效率。
高分辨率支持
支持384x384分辨率的圖像輸入,適用於高精度視覺任務。

模型能力

零樣本圖像分類
圖文檢索
多模態理解

使用案例

圖像分類
動物識別
識別圖像中的動物類別,如貓、狗等。
高準確率的零樣本分類能力。
圖文檢索
圖像搜索
根據文本描述檢索相關圖像。
高效的圖像-文本匹配能力。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase