S

Siglip2 Base Patch16 224

由google開發
SigLIP 2是基於SigLIP改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
下載量 44.75k
發布時間 : 2/17/2025

模型概述

SigLIP 2是一個視覺語言模型,可用於零樣本圖像分類和圖文檢索等任務,也可作為其他視覺任務的視覺編碼器。

模型特點

改進的訓練目標
整合瞭解碼器損失、全局-局部和掩碼預測損失、寬高比和分辨率適應性等訓練目標
多任務能力
支持零樣本圖像分類和圖文檢索等多種視覺語言任務
大規模預訓練
在WebLI數據集上進行預訓練,使用多達2048個TPU-v5e芯片

模型能力

零樣本圖像分類
圖文檢索
視覺特徵提取

使用案例

圖像分析
零樣本圖像分類
無需特定訓練即可對圖像進行分類
可根據提供的候選標籤準確分類圖像
視覺特徵提取
提取圖像的視覺特徵表示
可用於下游視覺任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase