V

Vit SO400M 16 SigLIP2 256

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類
下載量 998
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,專門用於零樣本圖像分類任務。模型採用SigLIP 2架構,在WebLI數據集上訓練,具有改進的語義理解和定位能力。

模型特點

改進的語義理解
採用SigLIP 2架構,相比前代模型具有更好的語義理解能力
零樣本分類能力
無需特定訓練即可對新類別進行圖像分類
多語言支持
支持多種語言的文本輸入(基於論文描述推斷)
高效視覺編碼
使用16x16的ViT架構進行高效圖像特徵提取

模型能力

零樣本圖像分類
圖像-文本匹配
多模態特徵提取

使用案例

圖像分類
食品識別
識別各種食品類別,如甜甜圈、貝奈特餅等
可準確區分相似食品類別
動物識別
識別不同動物種類,如貓、狗等
能區分相似動物類別
內容審核
不適當內容檢測
識別圖像中可能包含的不適當內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase