オープンソースSigLIP 2ビジュアル言語モデル - 意味理解、ロケーション、特徴抽出能力を向上させる

ホーム

Siglip2 So400m Patch14 384

googleによって開発

SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #マルチモーダル意味理解 #密な特徴抽出

ダウンロード数 622.54k

リリース時間 : 2/17/2025

モデル概要

このモデルはゼロショット画像分類、画像テキスト検索などのタスクに使用でき、視覚言語モデルの視覚エンコーダーとしても利用可能です。

モデル特徴

強化された意味理解

意味理解能力を向上させるために複数の技術を統合

位置特定能力

改良された位置特定能力により、より正確な画像分析が可能

密な特徴抽出

より豊富な画像特徴を抽出可能

統一トレーニングスキーム

以前は独立して開発されていた技術を統合し、統一されたトレーニングスキームを形成

モデル能力

ゼロショット画像分類

画像テキスト検索

視覚的特徴抽出

使用事例

画像分析

ゼロショット画像分類

トレーニングなしで新しいカテゴリの画像を分類

画像テキスト検索

テキストクエリに基づいて関連画像を検索

コンピュータビジョン

視覚エンコーダー

他の視覚言語モデルの視覚エンコーディングコンポーネントとして使用

🚀 SigLIP 2 So400m

SigLIP 2 は、SigLIP の事前学習目的を、事前に独立して開発された技術を用いて拡張し、統一された手法にまとめています。これにより、セマンティック理解、位置特定、および密な特徴量の向上が実現されます。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像 - テキスト検索などのタスクに使用できます。また、VLM（ビジョン言語モデル）やその他のビジョンタスクのビジョンエンコーダーとしても利用できます。

✨ 主な機能

ゼロショット画像分類や画像 - テキスト検索などのタスクに使用可能
VLMやその他のビジョンタスクのビジョンエンコーダーとして利用可能

💻 使用例

基本的な使用法

このモデルを使ってゼロショット画像分類を行う方法は次の通りです。

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-so400m-patch14-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高度な使用法

ビジョンタワーを使って画像をエンコードする方法は次の通りです。

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-so400m-patch14-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

より多くのコード例については、siglip ドキュメントを参照してください。

🔧 技術詳細

学習手順

SigLIP 2 は、SigLIP にいくつかの賢い学習目的を追加しています。

デコーダー損失
グローバル - ローカルおよびマスクされた予測損失
アスペクト比と解像度の適応性

学習データ

SigLIP 2 は、WebLI データセット (Chen et al., 2023) で事前学習されています。

コンピューティング

このモデルは、最大 2048 個の TPU - v5e チップで学習されました。

📚 ドキュメント

評価結果

SigLIP 2 の評価結果を以下に示します（論文から引用）。

Evaluation Table

BibTeX エントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}