SigLIP 2オープンソースの視覚言語エンコーダー - 多言語の意味理解と特徴抽出能力を向上させる

ホーム

Siglip2 Base Patch16 256

googleによって開発

SigLIP 2は多言語の視覚言語エンコーダで、意味理解、位置特定、高密度特徴抽出能力が向上しています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 45.24k

リリース時間 : 2/17/2025

モデル概要

SigLIP 2はSigLIPを基盤に複数の技術を統合し、視覚言語タスクの性能を向上させ、ゼロショット画像分類や画像テキスト検索などのタスクに利用可能です。

モデル特徴

改良された意味理解

デコーダ損失などの技術を統合することで、モデルの意味理解能力を向上させました。

強化された位置特定能力

グローバル-ローカルおよびマスク予測損失を採用し、モデルの位置特定精度を高めました。

高密度特徴抽出

高密度特徴抽出能力を最適化し、様々な視覚タスクに適用可能です。

アスペクト比と解像度の適応性

様々なアスペクト比と解像度をサポートし、モデルの適応性を強化しました。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚的特徴抽出

使用事例

画像分類

ゼロショット画像分類

微調整なしで画像を分類でき、カスタムラベルをサポートします。

複数のデータセットで優れた性能を発揮します。

画像テキスト検索

クロスモーダル検索

テキストに基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます。

WebLIデータセットで事前学習されており、強力な検索能力を備えています。

🚀 SigLIP 2 Base

SigLIP 2 は、SigLIP の事前学習目的を、以前から独立して開発された手法を用いて拡張し、統一されたレシピにまとめました。これにより、セマンティック理解、位置特定、および密な特徴量が向上します。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用可能です。

✨ 主な機能

💻 使用例

基本的な使用法

ゼロショット画像分類を行う方法は次の通りです。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

Vision Tower を使用して画像をエンコードする方法は次の通りです。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip ドキュメントを参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📚 ドキュメント

評価結果

SigLIP 2 の評価結果を以下に示します（論文から引用）。評価表

BibTeX エントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}