V

Vit L 16 SigLIP 384

由timm開發
基於WebLI數據集訓練的SigLIP(Sigmoid Loss for Language-Image Pre-training)模型,用於零樣本圖像分類任務。
下載量 3,008
發布時間 : 10/16/2023

模型概述

該模型是一種對比圖像-文本模型,採用Sigmoid損失函數進行語言-圖像預訓練,支持零樣本圖像分類任務。

模型特點

Sigmoid損失函數
採用Sigmoid損失函數進行語言-圖像預訓練,相比傳統Softmax損失函數在某些任務上表現更優。
零樣本分類能力
支持零樣本圖像分類,無需針對特定任務進行微調即可應用於新類別。
大尺寸視覺Transformer
基於ViT-L-16架構,具有強大的圖像特徵提取能力。

模型能力

零樣本圖像分類
圖像-文本對比學習
圖像特徵提取

使用案例

計算機視覺
圖像分類
無需訓練即可對新類別圖像進行分類
圖像檢索
基於文本描述檢索相關圖像
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase