S

Siglip2 Base Patch16 384

由google開發
SigLIP 2 是基於 SigLIP 的視覺語言模型,通過統一訓練方案提升了語義理解、定位和密集特徵提取能力。
下載量 4,832
發布時間 : 2/17/2025

模型概述

該模型可直接用於零樣本圖像分類、圖文檢索等任務,或作為視覺語言模型的視覺編碼器。

模型特點

統一訓練方案
整合了多種技術形成統一訓練方案,提升語義理解、定位和密集特徵提取能力。
多任務支持
支持零樣本圖像分類、圖文檢索等多種任務,也可作為視覺編碼器使用。
高效訓練
採用 WebLI 數據集進行預訓練,使用多達 2048 塊 TPU-v5e 芯片完成訓練。

模型能力

零樣本圖像分類
圖文檢索
圖像特徵提取

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對圖像進行分類
可根據提供的候選標籤返回最可能的分類結果
視覺編碼器
作為其他視覺任務的視覺特徵提取器
可提取高質量的圖像嵌入特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase