S

Siglip Base Patch16 256

由google開發
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
下載量 12.71k
發布時間 : 1/8/2024

模型概述

SigLIP是CLIP的改進版本,通過優化損失函數提升了性能,適用於零樣本圖像分類和圖文檢索等任務。

模型特點

改進的損失函數
採用Sigmoid損失函數,僅作用於圖像-文本對,無需全局歸一化,在小批量和大批量情況下均有更好表現。
高效訓練
在16塊TPU-v4芯片上僅需三天即可完成訓練,計算效率高。
多模態能力
同時處理視覺和文本信息,實現圖像與文本的跨模態理解。

模型能力

零樣本圖像分類
圖文檢索
跨模態理解

使用案例

圖像理解
圖像分類
無需特定訓練即可對圖像進行分類,支持自定義標籤。
在多種數據集上表現優於傳統CLIP模型。
信息檢索
圖文匹配
根據文本描述檢索相關圖像,或根據圖像生成描述文本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase