V

Vit B 32 SigLIP2 256

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
下載量 691
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,專門用於零樣本圖像分類任務。它採用了SigLIP 2架構,在WebLI數據集上進行訓練,能夠理解圖像與文本之間的語義關係。

模型特點

SigLIP 2架構
採用改進的SigLIP 2架構,具有更好的語義理解、定位和密集特徵提取能力
零樣本分類
無需特定訓練即可對新類別進行圖像分類
多語言支持
支持多語言文本輸入(基於論文推斷)
高效視覺編碼
使用Vision Transformer架構高效編碼圖像特徵

模型能力

零樣本圖像分類
圖像-文本匹配
多模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對圖像進行分類,支持動態添加新類別
可輸出各類別的概率分佈
圖像檢索
根據文本描述檢索相關圖像
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase