V

Vit SO400M 16 SigLIP2 384

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務。
下載量 106.30k
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,專為零樣本圖像分類設計,能夠理解圖像和文本之間的語義關係。

模型特點

零樣本分類能力
無需特定訓練即可對新類別進行圖像分類
改進的語義理解
SigLIP 2架構提供了更好的語義理解和定位能力
密集特徵提取
能夠提取圖像的密集特徵表示

模型能力

零樣本圖像分類
圖像-文本語義匹配
多模態特徵提取

使用案例

圖像理解
食品識別
識別各種食品類別如甜甜圈、貝涅餅等
示例中準確識別貝涅餅的概率最高
動物識別
區分不同動物類別如貓、狗等
內容審核
不當內容檢測
識別圖像中可能包含的不當內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase