SigLIP 2-base-patch32-256オープンソースモデル - 意味理解と特徴抽出能力の向上

ホーム

Siglip2 Base Patch32 256

googleによって開発

SigLIP 2はSigLIPを基に改良されたバージョンで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 9,419

リリース時間 : 2/17/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類、画像テキスト検索などのタスクに使用できるほか、他の視覚タスクの視覚エンコーダとしても利用可能です。

モデル特徴

改良された意味理解

意味理解能力を向上させるために複数の技術が統合されています。

位置特定能力

画像内のオブジェクトの位置特定能力が強化されています。

密な特徴抽出

密な特徴抽出の能力が向上しています。

マルチタスクサポート

ゼロショット画像分類、画像テキスト検索など、複数のタスクをサポートしています。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚エンコーディング

使用事例

画像分類

ゼロショット画像分類

訓練なしで画像を分類できます。

画像テキスト検索

画像検索

テキスト記述に基づいて関連画像を検索します。

🚀 SigLIP 2 Base

SigLIP 2は、SigLIPの事前学習目標を、事前に独立して開発された技術を用いて拡張し、統一された手法にまとめました。これにより、セマンティック理解、位置特定、および密な特徴量が向上します。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用できます。

✨ 主な機能

ゼロショット画像分類

このモデルを使ってゼロショット画像分類を行う方法は以下の通りです。

💻 使用例

基本的な使用法

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch32-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

Vision Towerを使って画像をエンコードすることができます。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch32-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip documentationを参照してください。

🔧 技術詳細

学習手順

SigLIP 2は、SigLIPにいくつかの賢い学習目標を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2は、WebLIデータセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大2048個のTPU - v5eチップで学習されました。

評価結果

SigLIP 2の評価結果は以下の通りです（論文から引用）。

Evaluation Table

BibTeX引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}