SigLIP 2オープンソースビジュアル - 言語エンコーダ：意味理解と特徴抽出能力の強化

ホーム

Siglip2 Base Patch16 Naflex

googleによって開発

SigLIP 2は多言語視覚-言語エンコーダーで、SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解、位置特定、高密度特徴抽出能力を向上させました。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #マルチモーダル意味理解 #高密度特徴抽出

ダウンロード数 10.68k

リリース時間 : 2/18/2025

モデル概要

SigLIP 2はゼロショット画像分類、画像テキスト検索などのタスクに使用可能で、視覚言語モデルの視覚エンコーダーとしても利用できます。

モデル特徴

強化された意味理解

SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解能力を向上させました。

位置特定と高密度特徴抽出

改良された訓練目標により、位置特定と高密度特徴抽出能力が強化されました。

マルチタスクサポート

ゼロショット画像分類、画像テキスト検索など様々な視覚-言語タスクをサポートします。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚エンコーディング

使用事例

画像分類

ゼロショット画像分類

微調整なしで画像を分類可能、カスタムラベルをサポートします。

画像テキスト検索

画像検索

テキスト記述に基づいて関連画像を検索します。

🚀 SigLIP 2 Base

SigLIP 2 は、SigLIP の事前学習目的を、事前に開発された手法を統合して拡張し、セマンティック理解、位置特定、および密な特徴量を向上させます。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用できます。

ゼロショット画像分類の例

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-naflex"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

画像のエンコードの例

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-naflex"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip2 ドキュメントを参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📊 評価結果

SigLIP 2 の評価結果は以下の通りです（論文から引用）。

評価表

BibTeX エントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}