SigLIP 2开源视觉语言编码器 - 强化语义理解与定位特征提取能力

首页

Siglip2 Large Patch16 384

由 google 开发

SigLIP 2 是在 SigLIP 基础上改进的多语言视觉语言编码器，提升了语义理解、定位和密集特征提取能力。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本图像分类 #图文检索 #多语言视觉编码

下载量 6,525

发布时间 : 2/17/2025

模型简介

SigLIP 2 是一个视觉语言模型，可用于零样本图像分类和图文检索等任务，或作为其他视觉任务的视觉编码器。

模型特点

统一训练方案

整合了解码器损失、全局-局部和掩码预测损失等多种技术，形成统一训练方案

适应性训练

支持宽高比和分辨率适应性训练

多任务能力

同时具备语义理解、定位和密集特征提取能力

模型能力

零样本图像分类

图文检索

视觉特征提取

使用案例

图像理解

零样本图像分类

无需特定训练即可对新类别图像进行分类

支持自定义标签分类

视觉编码

作为其他视觉任务的视觉编码器

提供高质量的图像特征表示

跨模态应用

图文检索

实现图像和文本之间的跨模态检索

🚀 SigLIP 2 Large

SigLIP 2模型基于SigLIP的预训练目标，融合了先前独立开发的技术，形成了统一的方法，从而提升了语义理解、定位和密集特征提取的能力。

🚀 快速开始

预期用途

你可以将原始模型用于零样本图像分类和图像 - 文本检索等任务，也可以将其作为视觉语言模型（VLM）的视觉编码器（以及其他视觉任务）。

以下是如何使用此模型执行零样本图像分类的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-large-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

你还可以像这样使用视觉塔对图像进行编码：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-large-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例，请参考 siglip 文档。

✨ 主要特性

训练过程

SigLIP 2在SigLIP的基础上增加了一些巧妙的训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

训练数据

SigLIP 2在WebLI数据集 (Chen et al., 2023) 上进行了预训练。

计算资源

该模型在多达2048个TPU - v5e芯片上进行训练。

📚 详细文档

评估结果

以下展示了SigLIP 2的评估结果（取自论文）。评估表格

BibTeX引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}