SigLIP 2開源視覺語言模型 - 免費部署增強語義理解與特徵提取

首頁

Siglip2 Base Patch16 512

由google開發

SigLIP 2 是一個視覺語言模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #圖文檢索 #多模態編碼器

下載量 28.01k

發布時間 : 2/17/2025

模型概述

SigLIP 2 基於 SigLIP 的預訓練目標，通過統一的訓練方案提升了視覺語言任務的性能，適用於零樣本圖像分類、圖文檢索等任務。

模型特點

統一的訓練方案

整合了多項獨立開發的技術，形成了一套統一的訓練方案，提升了語義理解、定位和密集特徵提取能力。

多任務支持

支持零樣本圖像分類、圖文檢索等任務，並可作為視覺語言模型的視覺編碼器。

創新訓練目標

增加了解碼器損失、全局-局部和掩碼預測損失、寬高比和分辨率適應性等創新訓練目標。

模型能力

零樣本圖像分類

圖文檢索

視覺編碼

使用案例

圖像分類

零樣本圖像分類

使用候選標籤對圖像進行分類，無需預先訓練特定類別的模型。

圖文檢索

圖像與文本匹配

將圖像與文本進行匹配，用於檢索相關圖像或文本。

🚀 SigLIP 2 Base

SigLIP 2 模型基於 SigLIP 進行擴展，它將預先獨立開發的技術融入到統一的預訓練目標中，從而提升了語義理解、定位能力和特徵提取的效果。

🚀 快速開始

你可以使用該原始模型進行零樣本圖像分類和圖像 - 文本檢索等任務，也可以將其作為視覺語言模型（VLM）的視覺編碼器用於其他視覺任務。

以下是使用此模型進行零樣本圖像分類的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-512"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

你還可以使用視覺塔對圖像進行編碼，示例如下：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-512"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代碼示例請參考 siglip 文檔。

✨ 主要特性

SigLIP 2 在 SigLIP 的基礎上增加了一些巧妙的訓練目標：

解碼器損失
全局 - 局部和掩碼預測損失
寬高比和分辨率適應性

🔧 技術細節

訓練數據

SigLIP 2 在 WebLI 數據集 (Chen et al., 2023) 上進行預訓練。

計算資源

該模型在多達 2048 個 TPU - v5e 芯片上進行訓練。

📚 詳細文檔

評估結果

以下是 SigLIP 2 的評估結果（取自論文）：評估表格

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}