S

Siglip2 Base Patch16 224

googleによって開発
SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。
ダウンロード数 44.75k
リリース時間 : 2/17/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクに使用でき、他の視覚タスクの視覚エンコーダとしても利用可能です。

モデル特徴

改良された訓練目標
デコーダ損失、グローバル-ローカルおよびマスク予測損失、アスペクト比と解像度適応性などの訓練目標を統合
マルチタスク能力
ゼロショット画像分類や画像テキスト検索など、様々な視覚言語タスクをサポート
大規模事前学習
WebLIデータセットで事前学習を実施し、最大2048個のTPU-v5eチップを使用

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚的特徴抽出

使用事例

画像分析
ゼロショット画像分類
特定の訓練なしで画像を分類可能
提供された候補ラベルに基づき画像を正確に分類
視覚的特徴抽出
画像の視覚的特徴表現を抽出
下流の視覚タスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase