V

Vit SO400M 14 SigLIP2 378

由timm開發
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
下載量 1,596
發布時間 : 2/21/2025

模型概述

這是一個對比式圖文模型,採用Sigmoid損失函數進行預訓練,具有改進的語義理解和定位能力,適用於多語言視覺語言任務。

模型特點

改進的語義理解
採用SigLIP 2架構,相比前代模型具有更好的語義理解能力
多語言支持
模型支持多語言視覺語言任務
零樣本分類能力
無需微調即可直接應用於新的圖像分類任務
Sigmoid損失函數
使用創新的Sigmoid損失函數進行預訓練,提高模型性能

模型能力

零樣本圖像分類
多語言視覺語言理解
圖像-文本匹配
語義特徵提取

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對圖像進行分類
可準確識別圖像中的物體類別
多模態應用
圖文匹配
判斷圖像與文本描述的匹配程度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase