SigLIP 2オープンソース視覚言語モデル - 意味理解、位置特定、特徴抽出能力の向上

ホーム

Siglip2 Base Patch16 384

googleによって開発

SigLIP 2はSigLIPを基にした視覚言語モデルで、統一されたトレーニング手法により意味理解、位置特定、高密度特徴抽出能力を向上させています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #マルチモーダル意味理解 #高密度特徴抽出

ダウンロード数 4,832

リリース時間 : 2/17/2025

モデル概要

このモデルはゼロショット画像分類や画像テキスト検索などのタスクに直接使用できるほか、視覚言語モデルの視覚エンコーダーとしても利用可能です。

モデル特徴

統一トレーニング手法

複数の技術を統合した統一トレーニング手法により、意味理解、位置特定、高密度特徴抽出能力を向上させています。

マルチタスクサポート

ゼロショット画像分類、画像テキスト検索など様々なタスクをサポートし、視覚エンコーダーとしても使用可能です。

効率的なトレーニング

WebLIデータセットを使用した事前トレーニングを実施し、最大2048個のTPU-v5eチップを使用してトレーニングを完了しました。

モデル能力

ゼロショット画像分類

画像テキスト検索

画像特徴抽出

使用事例

画像理解

ゼロショット画像分類

特定のトレーニングなしで画像を分類可能

提供された候補ラベルに基づいて最も可能性の高い分類結果を返します

視覚エンコーダー

他の視覚タスクのための視覚特徴抽出器として機能

高品質な画像埋め込み特徴を抽出可能

🚀 SigLIP 2 Base

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された手法を統合したレシピに拡張し、セマンティック理解、位置特定、および高密度特徴を向上させます。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用できます。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能
VLMやその他のビジョンタスクのビジョンエンコーダーとして利用可能

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

このコードは、SigLIP 2 Base モデルを使用してゼロショット画像分類を行う方法を示しています。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

このコードは、Vision Tower を使用して画像をエンコードする方法を示しています。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

📚 ドキュメント

より多くのコード例については、siglip documentation を参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📄 ライセンス

このモデルは、Apache - 2.0 ライセンスの下で提供されています。

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}