S

Siglip Large Patch16 384

googleによって開発
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
ダウンロード数 245.21k
リリース時間 : 1/8/2024

モデル概要

SigLIPは損失関数を改良したCLIPマルチモーダルモデルで、そのSigmoid損失関数は画像-テキストペアにのみ作用し、グローバルな類似度による正規化を必要としません。この特性により、モデルはバッチサイズを拡大しながらも、小規模バッチのシナリオでも優れた性能を発揮します。

モデル特徴

改良されたSigmoid損失関数
画像-テキストペアにのみ作用し、グローバルな類似度による正規化を必要としないため、バッチサイズを拡大しながらも、小規模バッチのシナリオでも優れた性能を発揮します。
高性能
ゼロショット画像分類や画像テキスト検索タスクで優れた性能を発揮し、従来のCLIPモデルを上回ります。
マルチモーダルサポート
画像とテキストのデュアルモーダル処理をサポートし、さまざまな視覚-言語タスクに適用可能です。

モデル能力

ゼロショット画像分類
画像テキスト検索
マルチモーダル処理

使用事例

画像分類
ゼロショット画像分類
訓練なしで画像を分類でき、カスタムラベルをサポートします。
さまざまなデータセットで優れた性能を発揮し、従来のCLIPモデルを上回ります。
画像テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
効率的かつ正確で、大規模な画像ライブラリに適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase