S

Siglip Base Patch16 384

由google開發
SigLIP是基於WebLi數據集預訓練的多模態模型,採用改進的sigmoid損失函數,適用於零樣本圖像分類和圖文檢索任務。
下載量 2,570
發布時間 : 1/8/2024

模型概述

SigLIP是改進損失函數版本的CLIP多模態模型,其sigmoid損失函數僅作用於圖像-文本對,無需通過全局相似度進行歸一化。適用於零樣本圖像分類和圖文檢索等任務。

模型特點

改進的損失函數
採用sigmoid損失函數,僅作用於圖像-文本對,無需通過全局相似度進行歸一化,使得模型在擴大批次規模的同時,也能在小批次場景下表現更優。
高效訓練
在16塊TPU-v4芯片上僅需三天即可完成訓練。
高分辨率支持
支持384x384分辨率的圖像輸入。

模型能力

零樣本圖像分類
圖文檢索

使用案例

圖像分類
動物識別
識別圖像中的動物類型,如貓、狗等。
能夠準確識別圖像中的動物類型。
圖文檢索
圖像搜索
根據文本描述搜索相關圖像。
能夠根據文本描述高效檢索相關圖像。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase