V

Vit L 16 SigLIP2 384

由timm開發
一個在WebLI數據集上訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
下載量 581
發布時間 : 2/21/2025

模型概述

該模型是基於SigLIP 2架構的視覺語言模型,主要用於零樣本圖像分類。它能夠理解圖像內容並與文本描述進行對比,從而實現無需特定訓練的分類任務。

模型特點

Sigmoid損失函數
使用Sigmoid損失進行語言圖像預訓練,提高了模型的語義理解能力
多語言支持
能夠處理多種語言的文本描述(基於論文推斷)
改進的語義理解
相比前代模型,在語義理解和定位能力上有顯著提升
密集特徵提取
能夠提取圖像的密集特徵,支持更精細的圖像理解

模型能力

零樣本圖像分類
圖像-文本對比
多語言圖像理解
語義特徵提取

使用案例

圖像分類
零樣本圖像分類
無需特定訓練即可對新類別圖像進行分類
示例中能準確識別貝涅餅
內容理解
圖像語義分析
理解圖像中的語義內容和對象關係
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase