SigLIP 2オープンソースビジュアル言語モデル - 無料でデプロイして意味理解と特徴抽出能力を向上させる

ホーム

Siglip2 Giant Opt Patch16 256

googleによって開発

SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #マルチモーダル意味理解 #密な特徴抽出

ダウンロード数 3,936

リリース時間 : 2/17/2025

モデル概要

SigLIP 2 は SigLIP を基盤に、ゼロショット画像分類や画像テキスト検索などのタスクに適した複数の訓練目標を追加しており、他の視覚タスクの視覚エンコーダーとしても使用可能です。

モデル特徴

統一された訓練スキーム

独立して開発された複数の技術を統合し、モデルの総合的な能力を向上させる統一訓練スキームを形成しました。

強化された訓練目標

デコーダ損失、グローバル-ローカル、マスク予測損失などの訓練目標を追加し、モデルの性能を向上させました。

アスペクト比と解像度の適応性

異なるアスペクト比と解像度の入力をサポートし、モデルの適用性を強化しました。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚符号化

使用事例

画像分類

ゼロショット画像分類

特定の訓練なしで画像を分類可能、カスタムラベルをサポート。

複数のデータセットで優れた性能を発揮（詳細な評価結果は性能セクション参照）

画像テキスト検索

画像とテキストのマッチング

テキスト記述に合致する画像、またはその逆を検索するために使用可能。

🚀 SigLIP 2 Giant

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された技術を用いて拡張し、統一された方法にまとめています。これにより、セマンティック理解、位置特定、および密な特徴量が向上します。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（ビジョン言語モデル）やその他のビジョンタスクのビジョンエンコーダとしても利用可能です。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能
VLMやその他のビジョンタスクのビジョンエンコーダとして利用可能

💻 使用例

基本的な使用法

このコード例は、SigLIP 2 Giant モデルを使用してゼロショット画像分類を行う方法を示しています。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-giant-opt-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

このコード例は、Vision Tower を使用して画像をエンコードする方法を示しています。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-giant-opt-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip ドキュメントを参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダ損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📚 ドキュメント

SigLIP 2 の評価結果は以下の通りです（論文から引用）。

Evaluation Table

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}