SigLIP 2開源視覺語言編碼器 - 提升多語言語義理解與特徵提取能力

首頁

Siglip2 Base Patch16 256

由google開發

SigLIP 2是一個多語言視覺語言編碼器，改進了語義理解、定位和密集特徵提取能力。

圖像生成文本

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #圖文檢索 #多模態編碼器

下載量 45.24k

發布時間 : 2/17/2025

模型概述

SigLIP 2在SigLIP的基礎上整合了多項技術，提升了視覺語言任務的性能，可用於零樣本圖像分類和圖文檢索等任務。

模型特點

改進的語義理解

通過整合解碼器損失等技術，提升了模型的語義理解能力。

增強的定位能力

採用全局-局部和掩碼預測損失，提高了模型的定位精度。

密集特徵提取

優化了密集特徵提取能力，適用於多種視覺任務。

寬高比和分辨率適應性

支持多種寬高比和分辨率，增強了模型的適應性。

模型能力

零樣本圖像分類

圖文檢索

視覺特徵提取

使用案例

圖像分類

零樣本圖像分類

無需微調即可對圖像進行分類，支持自定義標籤。

在多種數據集上表現優異。

圖文檢索

跨模態檢索

根據文本檢索相關圖像，或根據圖像檢索相關文本。

在WebLI數據集上預訓練，具有強大的檢索能力。

🚀 SigLIP 2 Base

SigLIP 2 將 SigLIP 的預訓練目標與先前獨立開發的技術相結合，形成了一個統一的方案，以提升語義理解、定位和密集特徵提取能力。

🚀 快速開始

預期用途

你可以將原始模型用於零樣本圖像分類和圖像 - 文本檢索等任務，或者將其作為視覺語言模型（VLM）的視覺編碼器（以及其他視覺任務）。

零樣本圖像分類示例

以下是如何使用此模型進行零樣本圖像分類的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

圖像編碼示例

你可以使用視覺塔對圖像進行編碼，示例如下：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例，請參考 siglip 文檔。

🔧 技術細節

訓練過程

SigLIP 2 在 SigLIP 的基礎上增加了一些巧妙的訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

訓練數據

SigLIP 2 在 WebLI 數據集 (Chen et al., 2023) 上進行了預訓練。

計算資源

該模型在多達 2048 個 TPU - v5e 芯片上進行訓練。

📊 評估結果

以下是 SigLIP 2 的評估結果（取自論文）： Evaluation Table

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}