V

Vit B 16 SigLIP 384

由timm開發
基於WebLI數據集訓練的SigLIP(Sigmoid損失語言圖像預訓練)模型,用於零樣本圖像分類任務
下載量 4,119
發布時間 : 10/16/2023

模型概述

該模型是一種對比圖像-文本模型,採用Sigmoid損失函數進行預訓練,適用於零樣本圖像分類任務。模型基於ViT-B-16架構,在WebLI數據集上訓練。

模型特點

Sigmoid損失函數
採用創新的Sigmoid損失函數進行語言圖像預訓練,相比傳統Softmax損失有更好表現
零樣本學習能力
無需特定類別訓練即可對新類別進行圖像分類
高分辨率輸入
支持384x384像素的高分辨率圖像輸入
多框架支持
同時支持OpenCLIP(圖像+文本)和timm(僅圖像)框架

模型能力

零樣本圖像分類
圖像-文本匹配
圖像特徵提取
多模態理解

使用案例

內容分類
社交媒體圖像分類
對社交媒體上的圖像進行自動分類和標記
可準確識別圖像中的物體、場景和活動
電子商務
產品圖像分類
自動分類電子商務平臺上的產品圖像
無需為每個產品類別單獨訓練模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase