SigLIP 2オープンソースモデル - 無料でデプロイでき、意味理解、位置特定、特徴抽出能力を向上させます！

ホーム

Siglip2 So400m Patch16 Naflex

googleによって開発

SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 159.81k

リリース時間 : 2/18/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類、画像テキスト検索などのタスクや、他の視覚タスクのための視覚エンコーダとして使用できます。

モデル特徴

強化された意味理解

デコーダ損失、グローバル-ローカル、マスク予測損失などの技術を統合することで、意味理解能力を向上させました。

アスペクト比と解像度の適応性

異なるアスペクト比と解像度の画像処理をサポートし、モデルの適応性を強化しました。

マルチタスクサポート

ゼロショット画像分類、画像テキスト検索など、さまざまな視覚言語タスクに使用できます。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚エンコーディング

使用事例

画像分類

ゼロショット画像分類

トレーニングなしで画像を分類でき、迅速な展開が可能なシナリオに適しています。

カスタム候補ラベルをサポートし、分類確率を出力します。

画像テキスト検索

画像検索

テキスト記述に基づいて関連画像を検索します。

🚀 SigLIP 2 So400m

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された技術と統合したレシピに拡張し、セマンティック理解、位置特定、および高密度特徴を向上させます。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（およびその他のビジョンタスク）のビジョンエンコーダーとしても利用できます。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能
VLMやその他のビジョンタスクのビジョンエンコーダーとして利用できる

💻 使用例

基本的な使用法

以下は、このモデルを使用してゼロショット画像分類を行う方法です。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-so400m-patch16-naflex"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

Vision Towerを使用して画像をエンコードする方法は次の通りです。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-so400m-patch16-naflex"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip2 documentation を参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIPにいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLIデータセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大2048個のTPU - v5eチップで学習されました。

📚 ドキュメント

評価結果

SigLIP 2 の評価結果を以下に示します（論文から引用）。 Evaluation Table

BibTeXエントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}