V

Vit L 16 SigLIP2 512

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
下載量 147
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,採用SigLIP 2架構,主要用於零樣本圖像分類任務。模型在WebLI數據集上訓練,能夠理解圖像和文本之間的語義關係。

模型特點

SigLIP 2架構
採用改進的SigLIP 2架構,具有更好的語義理解、定位和密集特徵提取能力
零樣本學習
支持零樣本圖像分類,無需特定任務的微調即可應用於新類別
多語言支持
模型支持多語言文本輸入(基於論文描述推斷)
高效對比學習
使用Sigmoid損失函數進行語言圖像預訓練,提高學習效率

模型能力

圖像-文本對比學習
零樣本圖像分類
多模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對新類別圖像進行分類
示例中顯示能準確識別貝涅餅等食物類別
多模態應用
圖像-文本匹配
計算圖像與文本描述的相似度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase