SigLIP 2開源視覺語言編碼器 - 強化語義理解與定位特徵提取能力

首頁

Siglip2 Large Patch16 384

由google開發

SigLIP 2 是在 SigLIP 基礎上改進的多語言視覺語言編碼器，提升了語義理解、定位和密集特徵提取能力。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #圖文檢索 #多語言視覺編碼

下載量 6,525

發布時間 : 2/17/2025

模型概述

SigLIP 2 是一個視覺語言模型，可用於零樣本圖像分類和圖文檢索等任務，或作為其他視覺任務的視覺編碼器。

模型特點

統一訓練方案

整合瞭解碼器損失、全局-局部和掩碼預測損失等多種技術，形成統一訓練方案

適應性訓練

支持寬高比和分辨率適應性訓練

多任務能力

同時具備語義理解、定位和密集特徵提取能力

模型能力

零樣本圖像分類

圖文檢索

視覺特徵提取

使用案例

圖像理解

零樣本圖像分類

無需特定訓練即可對新類別圖像進行分類

支持自定義標籤分類

視覺編碼

作為其他視覺任務的視覺編碼器

提供高質量的圖像特徵表示

跨模態應用

圖文檢索

實現圖像和文本之間的跨模態檢索

🚀 SigLIP 2 Large

SigLIP 2模型基於SigLIP的預訓練目標，融合了先前獨立開發的技術，形成了統一的方法，從而提升了語義理解、定位和密集特徵提取的能力。

🚀 快速開始

預期用途

你可以將原始模型用於零樣本圖像分類和圖像 - 文本檢索等任務，也可以將其作為視覺語言模型（VLM）的視覺編碼器（以及其他視覺任務）。

以下是如何使用此模型執行零樣本圖像分類的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-large-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

你還可以像這樣使用視覺塔對圖像進行編碼：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-large-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例，請參考 siglip 文檔。

✨ 主要特性

訓練過程

SigLIP 2在SigLIP的基礎上增加了一些巧妙的訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

訓練數據

SigLIP 2在WebLI數據集 (Chen et al., 2023) 上進行了預訓練。

計算資源

該模型在多達2048個TPU - v5e芯片上進行訓練。

📚 詳細文檔

評估結果

以下展示了SigLIP 2的評估結果（取自論文）。評估表格

BibTeX引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}