SigLIP 2開源視覺語言模型 - 提升語義理解、定位與特徵提取能力

首頁

Siglip2 Base Patch16 384

由google開發

SigLIP 2 是基於 SigLIP 的視覺語言模型，通過統一訓練方案提升了語義理解、定位和密集特徵提取能力。

圖像生成文本

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #多模態語義理解 #密集特徵提取

下載量 4,832

發布時間 : 2/17/2025

模型概述

該模型可直接用於零樣本圖像分類、圖文檢索等任務，或作為視覺語言模型的視覺編碼器。

模型特點

統一訓練方案

整合了多種技術形成統一訓練方案，提升語義理解、定位和密集特徵提取能力。

多任務支持

支持零樣本圖像分類、圖文檢索等多種任務，也可作為視覺編碼器使用。

高效訓練

採用 WebLI 數據集進行預訓練，使用多達 2048 塊 TPU-v5e 芯片完成訓練。

模型能力

零樣本圖像分類

圖文檢索

圖像特徵提取

使用案例

圖像理解

零樣本圖像分類

無需特定訓練即可對圖像進行分類

可根據提供的候選標籤返回最可能的分類結果

視覺編碼器

作為其他視覺任務的視覺特徵提取器

可提取高質量的圖像嵌入特徵

🚀 SigLIP 2 Base

SigLIP 2 模型基於 SigLIP 進行了擴展，它將預先獨立開發的技術融入到統一的預訓練目標中，從而提升了語義理解、定位能力和特徵提取的效果。

🚀 快速開始

SigLIP 2 模型可用於零樣本圖像分類和圖像 - 文本檢索等任務，也能作為視覺語言模型（VLM）及其他視覺任務的視覺編碼器。

✨ 主要特性

擴展了 SigLIP 的預訓練目標，融入了獨立開發的技術，形成統一方案。
提升了語義理解、定位能力和特徵提取效果。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 transformers 庫官方文檔進行安裝。

💻 使用示例

基礎用法

以下是使用該模型進行零樣本圖像分類的示例代碼：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高級用法

使用 Vision Tower 對圖像進行編碼的示例代碼：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例可參考 siglip 文檔。

📚 詳細文檔

訓練過程

SigLIP 2 在 SigLIP 的基礎上增加了一些訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

訓練數據

SigLIP 2 在 WebLI 數據集 (Chen et al., 2023) 上進行預訓練。

計算資源

該模型在多達 2048 個 TPU - v5e 芯片上進行訓練。

評估結果

SigLIP 2 的評估結果如下（取自論文）：評估表格

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}