S

Siglip2 Base Patch16 256

googleによって開発
SigLIP 2は多言語の視覚言語エンコーダで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
ダウンロード数 45.24k
リリース時間 : 2/17/2025

モデル概要

SigLIP 2はSigLIPを基盤に複数の技術を統合し、視覚言語タスクの性能を向上させ、ゼロショット画像分類や画像テキスト検索などのタスクに利用可能です。

モデル特徴

改良された意味理解
デコーダ損失などの技術を統合することで、モデルの意味理解能力を向上させました。
強化された位置特定能力
グローバル-ローカルおよびマスク予測損失を採用し、モデルの位置特定精度を高めました。
高密度特徴抽出
高密度特徴抽出能力を最適化し、様々な視覚タスクに適用可能です。
アスペクト比と解像度の適応性
様々なアスペクト比と解像度をサポートし、モデルの適応性を強化しました。

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚的特徴抽出

使用事例

画像分類
ゼロショット画像分類
微調整なしで画像を分類でき、カスタムラベルをサポートします。
複数のデータセットで優れた性能を発揮します。
画像テキスト検索
クロスモーダル検索
テキストに基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます。
WebLIデータセットで事前学習されており、強力な検索能力を備えています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase