SigLIP 2開源視覺 - 語言編碼器：增強語義理解與特徵提取能力

首頁

Siglip2 Base Patch16 Naflex

由google開發

SigLIP 2 是一個多語言視覺-語言編碼器，整合了SigLIP的預訓練目標並增加了新的訓練方案，提升了語義理解、定位和密集特徵提取能力。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #多模態語義理解 #密集特徵提取

下載量 10.68k

發布時間 : 2/18/2025

模型概述

SigLIP 2 可用於零樣本圖像分類、圖文檢索等任務，或作為視覺語言模型的視覺編碼器。

模型特點

增強的語義理解

整合了SigLIP的預訓練目標並增加了新的訓練方案，提升了語義理解能力。

定位和密集特徵提取

通過改進的訓練目標，增強了定位和密集特徵提取能力。

多任務支持

支持零樣本圖像分類、圖文檢索等多種視覺-語言任務。

模型能力

零樣本圖像分類

圖文檢索

視覺編碼

使用案例

圖像分類

零樣本圖像分類

無需微調即可對圖像進行分類，支持自定義標籤。

圖文檢索

圖像搜索

根據文本描述檢索相關圖像。

🚀 SigLIP 2 Base

SigLIP 2 模型擴展了 SigLIP 的預訓練目標，將先前獨立開發的技術整合為統一方案，以提升語義理解、定位能力和密集特徵提取能力。它可用於零樣本圖像分類和圖像 - 文本檢索等任務，也能作為視覺語言模型（VLM）的視覺編碼器。

🚀 快速開始

零樣本圖像分類

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-naflex"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

圖像編碼

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-naflex"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例請參考 siglip2 文檔。

✨ 主要特性

擴展預訓練目標：SigLIP 2 擴展了 SigLIP 的預訓練目標，將先前獨立開發的技術整合為統一方案，以提升語義理解、定位能力和密集特徵提取能力。
多任務適用性：可用於零樣本圖像分類和圖像 - 文本檢索等任務，也能作為視覺語言模型（VLM）的視覺編碼器。

🔧 技術細節

訓練目標

SigLIP 2 在 SigLIP 的基礎上增加了一些訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

訓練數據

SigLIP 2 在 WebLI 數據集 (Chen et al., 2023) 上進行預訓練。

計算資源

該模型在多達 2048 個 TPU - v5e 芯片上進行訓練。

📄 許可證

本項目採用 Apache 2.0 許可證。

📚 詳細文檔

預期用途

可以使用原始模型進行零樣本圖像分類和圖像 - 文本檢索等任務，或作為視覺語言模型（VLM）的視覺編碼器（以及其他視覺任務）。

評估結果

SigLIP 2 的評估結果如下（取自論文）：評估表格

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}