V

Vit Gopt 16 SigLIP2 384

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類
下載量 1,953
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,專為零樣本圖像分類任務設計,能夠理解圖像內容並匹配文本描述

模型特點

SigLIP 2架構
採用改進的Sigmoid損失函數進行視覺語言預訓練,提供更好的語義理解能力
零樣本分類
無需特定任務的微調即可直接應用於圖像分類任務
多語言支持
基於論文信息推斷支持多語言文本理解(需進一步驗證)

模型能力

圖像-文本對比學習
零樣本圖像分類
圖像語義理解
多模態特徵提取

使用案例

圖像理解
食品識別
識別圖像中的食品類型(如甜甜圈、貝涅餅等)
示例中正確識別貝涅餅的概率最高
動物識別
識別圖像中的動物種類(如貓、狗等)
內容審核
不當內容檢測
自動檢測圖像中可能包含的不當內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase