S

Siglip2 So400m Patch14 224

googleによって開発
SigLIP 2 は SigLIP を改良した多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
ダウンロード数 23.11k
リリース時間 : 2/17/2025

モデル概要

SigLIP 2 は視覚言語モデルで、ゼロショット画像分類、画像テキスト検索などのタスクに使用でき、他の視覚タスクの視覚エンコーダーとしても利用可能です。

モデル特徴

改良された意味理解
複数の技術を統合し、モデルの意味理解能力を向上させました。
強化された位置特定能力
グローバル-ローカルおよびマスク予測損失を通じて、モデルの位置特定能力を向上させました。
高密度特徴抽出
画像の高密度特徴を抽出可能で、様々な視覚タスクに適用できます。
アスペクト比と解像度の適応性
異なるアスペクト比と解像度の画像入力をサポートします。

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚エンコーディング

使用事例

画像分類
ゼロショット画像分類
訓練不要で画像を分類可能、カスタムラベルをサポートします。
複数のデータセットで優れた性能を発揮します。
画像テキスト検索
画像テキストマッチング
テキスト記述に基づき関連画像を検索、または画像から関連テキスト記述を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase