V

Vit B 16 SigLIP2 384

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務
下載量 1,497
發布時間 : 2/21/2025

模型概述

這是一個對比式圖文模型,採用Sigmoid損失函數進行預訓練,支持多語言視覺語言編碼,具有改進的語義理解和定位能力

模型特點

Sigmoid損失函數
採用創新的Sigmoid損失函數進行語言圖像預訓練,提高了模型性能
改進的語義理解
相比前代模型具有更好的語義理解和定位能力
密集特徵提取
能夠提取圖像的密集特徵,適用於更復雜的視覺任務
多語言支持
支持多語言視覺語言編碼

模型能力

零樣本圖像分類
圖像語義理解
圖文對比學習
多語言視覺語言編碼

使用案例

計算機視覺
零樣本圖像分類
無需特定訓練即可對圖像進行分類
示例中顯示對貝奈特餅的識別準確率較高
視覺語義理解
理解圖像中的語義內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase