V

Vit Gopt 16 SigLIP2 256

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
下載量 43.20k
發布時間 : 2/21/2025

模型概述

該模型是一個對比式圖像-文本模型,主要用於零樣本圖像分類。它已從Big Vision的原始JAX檢查點轉換為適用於OpenCLIP的版本。

模型特點

SigLIP 2架構
採用改進的SigLIP 2架構,具有更好的語義理解、定位和密集特徵提取能力。
多語言支持
支持多語言文本輸入(基於論文推斷)。
零樣本分類
無需微調即可執行圖像分類任務。

模型能力

零樣本圖像分類
圖像-文本對比學習
多語言理解

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對圖像進行分類
示例中顯示能正確識別貝涅餅等食物
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase