V

Vit B 16 SigLIP 512

由timm開發
基於WebLI數據集訓練的SigLIP(Sigmoid損失語言圖像預訓練)模型,用於零樣本圖像分類任務
下載量 3,787
發布時間 : 10/16/2023

模型概述

這是一個對比圖像-文本模型,使用Sigmoid損失進行語言圖像預訓練,特別適合零樣本圖像分類任務。模型從JAX檢查點轉換為PyTorch格式,可在OpenCLIP和timm中使用。

模型特點

Sigmoid損失函數
採用Sigmoid損失而非傳統的Softmax損失進行語言圖像預訓練,提高了模型性能
零樣本分類能力
無需特定任務微調即可直接應用於新的圖像分類任務
多框架支持
同時支持OpenCLIP(圖像+文本)和timm(僅圖像)框架

模型能力

零樣本圖像分類
圖像特徵提取
文本特徵提取
圖像-文本匹配

使用案例

圖像識別
食品識別
識別圖像中的食品類別,如甜甜圈、貝涅餅等
可輸出各類別的概率分佈
內容審核
不當內容檢測
檢測圖像中是否包含特定類別的不當內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase