S

Siglip2 Base Patch16 512

由google開發
SigLIP 2 是一個視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
下載量 28.01k
發布時間 : 2/17/2025

模型概述

SigLIP 2 基於 SigLIP 的預訓練目標,通過統一的訓練方案提升了視覺語言任務的性能,適用於零樣本圖像分類、圖文檢索等任務。

模型特點

統一的訓練方案
整合了多項獨立開發的技術,形成了一套統一的訓練方案,提升了語義理解、定位和密集特徵提取能力。
多任務支持
支持零樣本圖像分類、圖文檢索等任務,並可作為視覺語言模型的視覺編碼器。
創新訓練目標
增加了解碼器損失、全局-局部和掩碼預測損失、寬高比和分辨率適應性等創新訓練目標。

模型能力

零樣本圖像分類
圖文檢索
視覺編碼

使用案例

圖像分類
零樣本圖像分類
使用候選標籤對圖像進行分類,無需預先訓練特定類別的模型。
圖文檢索
圖像與文本匹配
將圖像與文本進行匹配,用於檢索相關圖像或文本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase