SigLIP 2オープンソースモデル - 無料でデプロイ可能、意味理解、位置特定、特徴抽出能力の向上

ホーム

Siglip2 Giant Opt Patch16 384

googleによって開発

SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #画像テキスト検索 #マルチモーダルエンコーダ

ダウンロード数 26.12k

リリース時間 : 2/17/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクに使用可能であり、他の視覚タスクのための視覚エンコーダとしても利用できます。

モデル特徴

改良された意味理解

複数の技術を統合し、意味理解能力を大幅に向上させました。

強化された位置特定能力

特定の訓練目標により、モデルの位置特定精度が向上しました。

密な特徴抽出

より豊富な密な特徴を抽出可能で、様々な視覚タスクに適用できます。

マルチタスク適応性

ゼロショット画像分類や画像テキスト検索など、複数のタスクをサポートします。

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚特徴抽出

使用事例

画像分類

ゼロショット画像分類

特定の訓練なしで新しいカテゴリの画像を分類できます。

高精度なゼロショット分類性能

情報検索

画像テキスト検索

テキストクエリに基づいて関連画像を検索、または画像に基づいて関連テキストを検索します。

効率的なクロスモーダル検索能力

視覚エンコーディング

視覚特徴抽出

他の視覚タスクのための視覚エンコーダとして機能し、高品質な特徴表現を提供します。

豊富な視覚特徴表現

🚀 SigLIP 2 Giant

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された技術と統合し、改善されたセマンティック理解、位置特定、および高密度特徴を実現します。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM のビジョンエンコーダとしても利用できます。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに対応。
VLM やその他のビジョンタスクのビジョンエンコーダとして使用可能。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

このコードは、SigLIP 2 Giant モデルを使用してゼロショット画像分類を行う例です。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-giant-opt-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

このコードは、Vision Tower を使用して画像をエンコードする例です。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-giant-opt-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

📚 ドキュメント

より多くのコード例については、siglip ドキュメントを参照してください。

🔧 技術詳細

訓練手順

SigLIP 2 は、SigLIP にいくつかの賢い訓練目的を追加しています。

デコーダ損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

訓練データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで訓練されました。

評価結果

SigLIP 2 の評価結果は以下の通りです（論文から引用）。 Evaluation Table

BibTeX エントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}