siglip2-base-patch16-224オープンソースモデル - 多言語ビジュアル言語エンコーディング、意味理解能力などを向上させる

ホーム

Siglip2 Base Patch16 224

googleによって開発

SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 44.75k

リリース時間 : 2/17/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクに使用でき、他の視覚タスクの視覚エンコーダとしても利用可能です。

モデル特徴

改良された訓練目標

デコーダ損失、グローバル-ローカルおよびマスク予測損失、アスペクト比と解像度適応性などの訓練目標を統合

マルチタスク能力

ゼロショット画像分類や画像テキスト検索など、様々な視覚言語タスクをサポート

大規模事前学習

WebLIデータセットで事前学習を実施し、最大2048個のTPU-v5eチップを使用

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚的特徴抽出

使用事例

画像分析

ゼロショット画像分類

特定の訓練なしで画像を分類可能

提供された候補ラベルに基づき画像を正確に分類

視覚的特徴抽出

画像の視覚的特徴表現を抽出

下流の視覚タスクに利用可能

🚀 SigLIP 2 Base

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された手法を用いて拡張し、統一されたレシピにまとめることで、セマンティック理解、位置特定、および密な特徴量の向上を実現しています。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（ビジョン - 言語モデル）やその他のビジョンタスクのビジョンエンコーダとしても利用できます。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能。
VLMやその他のビジョンタスクのビジョンエンコーダとして利用可能。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

このモデルを使ってゼロショット画像分類を行う方法は次の通りです。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-224"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

Vision Tower を使って画像をエンコードする方法は次の通りです。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-224"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip ドキュメントを参照してください。

📚 ドキュメント

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダ損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

評価結果

SigLIP 2 の評価結果を以下に示します（論文から引用）。 Evaluation Table

BibTeX エントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}