S

Siglip2 Giant Opt Patch16 256

googleによって開発
SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。
ダウンロード数 3,936
リリース時間 : 2/17/2025

モデル概要

SigLIP 2 は SigLIP を基盤に、ゼロショット画像分類や画像テキスト検索などのタスクに適した複数の訓練目標を追加しており、他の視覚タスクの視覚エンコーダーとしても使用可能です。

モデル特徴

統一された訓練スキーム
独立して開発された複数の技術を統合し、モデルの総合的な能力を向上させる統一訓練スキームを形成しました。
強化された訓練目標
デコーダ損失、グローバル-ローカル、マスク予測損失などの訓練目標を追加し、モデルの性能を向上させました。
アスペクト比と解像度の適応性
異なるアスペクト比と解像度の入力をサポートし、モデルの適用性を強化しました。

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚符号化

使用事例

画像分類
ゼロショット画像分類
特定の訓練なしで画像を分類可能、カスタムラベルをサポート。
複数のデータセットで優れた性能を発揮(詳細な評価結果は性能セクション参照)
画像テキスト検索
画像とテキストのマッチング
テキスト記述に合致する画像、またはその逆を検索するために使用可能。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase