V

Vit B 16 SigLIP I18n 256

由timm開發
一個在WebLI數據集上訓練的SigLIP(用於語言-圖像預訓練的Sigmoid損失)模型,適用於零樣本圖像分類任務。
下載量 87.92k
發布時間 : 10/17/2023

模型概述

該模型是基於SigLIP(Sigmoid Loss for Language-Image Pre-training)訓練的視覺-語言模型,主要用於零樣本圖像分類任務。它能夠將圖像和文本映射到同一嵌入空間,從而實現圖像與文本的對比學習。

模型特點

Sigmoid損失函數
使用Sigmoid損失函數進行語言-圖像預訓練,相比傳統的Softmax損失函數,能夠更好地處理多標籤分類任務。
零樣本分類
支持零樣本圖像分類,無需針對特定任務進行微調即可直接應用於新類別。
多語言支持
模型名稱中的'i18n'表示支持國際化,能夠處理多種語言的文本輸入。

模型能力

零樣本圖像分類
圖像-文本對比學習
多語言文本處理

使用案例

圖像分類
零樣本圖像分類
無需訓練即可對圖像進行分類,只需提供類別標籤文本。
能夠準確識別圖像內容並匹配到最相關的文本標籤。
跨模態檢索
圖像-文本匹配
計算圖像和文本之間的相似度,用於檢索相關的內容。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase