S

Siglip2 Large Patch16 384

由google開發
SigLIP 2 是在 SigLIP 基礎上改進的多語言視覺語言編碼器,提升了語義理解、定位和密集特徵提取能力。
下載量 6,525
發布時間 : 2/17/2025

模型概述

SigLIP 2 是一個視覺語言模型,可用於零樣本圖像分類和圖文檢索等任務,或作為其他視覺任務的視覺編碼器。

模型特點

統一訓練方案
整合瞭解碼器損失、全局-局部和掩碼預測損失等多種技術,形成統一訓練方案
適應性訓練
支持寬高比和分辨率適應性訓練
多任務能力
同時具備語義理解、定位和密集特徵提取能力

模型能力

零樣本圖像分類
圖文檢索
視覺特徵提取

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對新類別圖像進行分類
支持自定義標籤分類
視覺編碼
作為其他視覺任務的視覺編碼器
提供高質量的圖像特徵表示
跨模態應用
圖文檢索
實現圖像和文本之間的跨模態檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase