V

Vit SO400M 14 SigLIP

由timm開發
一個在WebLI數據集上訓練的SigLIP(用於語言-圖像預訓練的Sigmoid損失)模型,適用於零樣本圖像分類任務。
下載量 79.55k
發布時間 : 10/16/2023

模型概述

該模型是基於SigLIP(Sigmoid損失語言圖像預訓練)的視覺-語言模型,主要用於零樣本圖像分類任務。它能夠將圖像和文本映射到同一嵌入空間,從而實現跨模態的相似性計算。

模型特點

Sigmoid損失函數
使用Sigmoid損失而非傳統的Softmax損失進行語言-圖像預訓練,提高了模型的訓練效率和性能。
零樣本分類能力
無需特定任務的微調即可直接應用於新的圖像分類任務。
大規模預訓練
在WebLI這一大規模網絡圖像數據集上進行預訓練,具有強大的泛化能力。

模型能力

零樣本圖像分類
圖像-文本相似度計算
跨模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對圖像進行分類,只需提供候選標籤文本。
示例中顯示對貝涅餅圖像的正確分類概率最高
內容檢索
跨模態檢索
使用文本查詢檢索相關圖像,或反之。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase