V

Vit SO400M 16 SigLIP2 512

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務
下載量 1,191
發布時間 : 2/21/2025

模型概述

這是一個對比式圖文模型,採用SigLIP 2架構,具有改進的語義理解和定位能力,支持多語言視覺語言編碼

模型特點

改進的語義理解
採用SigLIP 2架構,相比前代模型具有更好的語義理解能力
多語言支持
支持多語言視覺語言編碼,可處理不同語言的文本輸入
零樣本分類能力
無需特定訓練即可對新類別進行圖像分類
密集特徵提取
能夠提取圖像的密集特徵,支持更精細的圖像理解

模型能力

零樣本圖像分類
圖像-文本匹配
多模態特徵提取
跨模態檢索

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對新類別圖像進行分類
可準確識別圖像中的對象類別
圖像檢索
根據文本描述檢索相關圖像
可實現高效的跨模態檢索
多模態應用
圖文匹配
評估圖像與文本描述的匹配程度
可應用於內容審核、廣告匹配等場景
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase