siglip2-base-patch16-224開源模型 - 多語言視覺語言編碼，提升語義理解等能力

首頁

Siglip2 Base Patch16 224

由google開發

SigLIP 2是基於SigLIP改進的多語言視覺語言編碼器，增強了語義理解、定位和密集特徵提取能力。

圖像生成文本

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #圖文檢索 #多模態編碼器

下載量 44.75k

發布時間 : 2/17/2025

模型概述

SigLIP 2是一個視覺語言模型，可用於零樣本圖像分類和圖文檢索等任務，也可作為其他視覺任務的視覺編碼器。

模型特點

改進的訓練目標

整合瞭解碼器損失、全局-局部和掩碼預測損失、寬高比和分辨率適應性等訓練目標

多任務能力

支持零樣本圖像分類和圖文檢索等多種視覺語言任務

大規模預訓練

在WebLI數據集上進行預訓練，使用多達2048個TPU-v5e芯片

模型能力

零樣本圖像分類

圖文檢索

視覺特徵提取

使用案例

圖像分析

零樣本圖像分類

無需特定訓練即可對圖像進行分類

可根據提供的候選標籤準確分類圖像

視覺特徵提取

提取圖像的視覺特徵表示

可用於下游視覺任務

🚀 SigLIP 2 Base

SigLIP 2 模型在語義理解、定位和密集特徵方面有顯著提升。它將 SigLIP 的預訓練目標與先前獨立開發的技術相結合，形成統一方案，從而增強了模型性能。

🚀 快速開始

你可以使用該原始模型進行零樣本圖像分類和圖像 - 文本檢索等任務，也可將其作為視覺語言模型（VLM）的視覺編碼器（以及其他視覺任務）。

✨ 主要特性

SigLIP 2 擴展了 SigLIP 的預訓練目標，結合了先前獨立開發的技術，形成統一方案，以提高語義理解、定位和密集特徵。

💻 使用示例

基礎用法

以下是如何使用此模型執行零樣本圖像分類的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-224"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高級用法

你可以像這樣使用視覺塔對圖像進行編碼：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-224"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例，請參考 siglip 文檔。

🔧 技術細節

訓練過程

SigLIP 2 在 SigLIP 的基礎上增加了一些巧妙的訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

訓練數據

SigLIP 2 在 WebLI 數據集 (Chen et al., 2023) 上進行預訓練。

計算資源

該模型在多達 2048 個 TPU - v5e 芯片上進行訓練。

📚 詳細文檔

評估結果

以下是 SigLIP 2 的評估結果（取自論文）。評估表格

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}