V

Vit B 16 SigLIP2 512

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
下載量 1,442
發布時間 : 2/21/2025

模型概述

這是一個對比圖像-文本模型,專為零樣本圖像分類設計,能夠理解圖像內容並匹配文本描述

模型特點

Sigmoid損失函數
採用創新的Sigmoid損失進行語言圖像預訓練,提高模型性能
多語言支持
支持多語言文本理解,增強跨語言應用能力
改進的語義理解
相比前代模型,在語義理解和定位能力上有顯著提升

模型能力

零樣本圖像分類
圖像-文本匹配
多模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對圖像進行分類
示例中顯示能準確識別貝奈特餅等食物
多模態應用
圖像搜索
通過文本描述搜索相關圖像
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase