S

Siglip2 Large Patch16 384

googleによって開発
SigLIP 2 は SigLIP を基に改良された多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
ダウンロード数 6,525
リリース時間 : 2/17/2025

モデル概要

SigLIP 2 は視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクに使用可能、または他の視覚タスクの視覚エンコーダーとして利用できます。

モデル特徴

統合トレーニング手法
デコーダ損失、グローバル-ローカル、マスク予測損失など複数の技術を統合し、統一されたトレーニング手法を形成
適応型トレーニング
アスペクト比と解像度の適応型トレーニングをサポート
マルチタスク能力
意味理解、位置特定、高密度特徴抽出能力を同時に備える

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚的特徴抽出

使用事例

画像理解
ゼロショット画像分類
特定のトレーニングなしで新規カテゴリの画像を分類可能
カスタムラベル分類をサポート
視覚エンコーディング
他の視覚タスクの視覚エンコーダーとして利用
高品質な画像特徴表現を提供
クロスモーダル応用
画像テキスト検索
画像とテキスト間のクロスモーダル検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase