V

Vit B 16 SigLIP

由timm開發
基於WebLI數據集訓練的SigLIP(Sigmoid Loss for Language Image Pre-training)模型,用於零樣本圖像分類任務。
下載量 27.77k
發布時間 : 10/16/2023

模型概述

該模型是一個對比圖像-文本模型,採用Sigmoid損失函數進行語言圖像預訓練,支持零樣本圖像分類任務。

模型特點

Sigmoid損失函數
採用Sigmoid損失函數進行語言圖像預訓練,相比傳統Softmax損失函數在某些任務上表現更好。
零樣本分類能力
無需特定任務的微調即可執行圖像分類任務。
WebLI數據集訓練
在WebLI大規模數據集上訓練,具有廣泛的視覺概念理解能力。

模型能力

圖像-文本對比學習
零樣本圖像分類
圖像特徵提取

使用案例

圖像分類
食品識別
識別圖像中的食品類型,如甜甜圈、貝涅餅等。
可準確識別多種食品類型
動物識別
識別圖像中的動物類型,如貓、狗等。
可準確識別常見動物
內容理解
圖像內容描述
理解圖像內容並匹配相關文本描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase