SigLIP 2 オープンソース視覚言語モデル - 無料で意味理解と特徴抽出能力を向上させる

ホーム

Siglip2 Large Patch16 256

googleによって開発

SigLIP 2 は SigLIP を改良した視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 10.89k

リリース時間 : 2/17/2025

モデル概要

このモデルはゼロショット画像分類、画像テキスト検索などのタスクに使用できるほか、視覚言語モデルの視覚エンコーダとしても利用可能です。

モデル特徴

強化された意味理解

意味理解能力を向上させるために複数の技術を統合しています。

改良された位置特定能力

新しい訓練目標を追加することで位置特定能力を向上させました。

高密度特徴抽出

高品質な高密度画像特徴を抽出できます。

統一訓練スキーム

独立して開発された複数の技術を統合した統一訓練スキームを採用しています。

モデル能力

ゼロショット画像分類

画像テキスト検索

画像特徴抽出

使用事例

画像分類

ゼロショット画像分類

微調整なしで画像を分類できます。

画像テキスト検索

画像検索

テキスト記述に基づいて関連画像を検索します。

視覚エンコーディング

視覚特徴抽出

他の視覚タスクに画像特徴を提供する視覚エンコーダとして機能します。

🚀 SigLIP 2 Large

SigLIP 2 は、SigLIP の事前学習目標を、事前に独立して開発された技術と統合し、セマンティック理解、位置特定、および密な特徴量を向上させます。

🚀 クイックスタート

SigLIP 2 Large モデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM のビジョンエンコーダとしても利用可能です。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能。
VLM のビジョンエンコーダとして機能。
SigLIP の事前学習目標を拡張し、セマンティック理解や位置特定などを向上。

📦 インストール

本モデルは transformers ライブラリを使用しています。transformers がインストールされていない場合は、以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

ゼロショット画像分類を行うコード例です。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-large-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

Vision Tower を使用して画像をエンコードするコード例です。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-large-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip documentation を参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は SigLIP の上にいくつかの賢い学習目標を追加しています。

デコーダ損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは最大 2048 個の TPU - v5e チップで学習されました。

📚 ドキュメント

評価結果

以下は SigLIP 2 の評価結果です（論文から引用）。 Evaluation Table

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}