SigLIP 2オープンソースビジュアル言語モデル - 無料でデプロイして意味理解と特徴抽出を強化

Home

Siglip2 Base Patch16 512

Developed by google

SigLIP 2は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した視覚言語モデルです。

テキスト生成画像

Transformers

Open Source License:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

Downloads 28.01k

Release Time : 2/17/2025

Model Overview

SigLIP 2はSigLIPの事前学習目標に基づき、統一されたトレーニングスキームにより視覚言語タスクの性能を向上させ、ゼロショット画像分類や画像テキスト検索などのタスクに適しています。

Model Features

統一されたトレーニングスキーム

複数の独立して開発された技術を統合し、統一されたトレーニングスキームを形成し、意味理解、位置特定、密な特徴抽出能力を向上させました。

マルチタスクサポート

ゼロショット画像分類、画像テキスト検索などのタスクをサポートし、視覚言語モデルの視覚エンコーダとしても使用できます。

革新的なトレーニング目標

デコーダ損失、グローバル-ローカルおよびマスク予測損失、アスペクト比と解像度の適応性などの革新的なトレーニング目標を追加しました。

Model Capabilities

ゼロショット画像分類

画像テキスト検索

視覚エンコーディング

Use Cases

画像分類

ゼロショット画像分類

候補ラベルを使用して画像を分類し、特定のカテゴリのモデルを事前にトレーニングする必要はありません。

画像テキスト検索

画像とテキストのマッチング

画像とテキストをマッチングさせ、関連する画像やテキストを検索するために使用します。

🚀 SigLIP 2 Base

SigLIP 2 は、SigLIP の事前学習目的を、以前に独立して開発された手法を用いて拡張し、統一されたレシピにまとめます。これにより、セマンティック理解、位置特定、および密な特徴量が向上します。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに生モデルとして使用することができます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用できます。

✨ 主な機能

ゼロショット画像分類

このモデルを使ってゼロショット画像分類を行う方法は以下の通りです。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-512"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

画像のエンコード

Vision Tower を使って画像をエンコードすることができます。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-512"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip ドキュメントを参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

計算環境

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📚 ドキュメント

評価結果

SigLIP 2 の評価結果は以下の通りです（論文から引用）。

Evaluation Table

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}