S

Siglip Base Patch16 256

googleによって開発
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像分類や画像テキスト検索タスクで優れた性能を発揮します。
ダウンロード数 12.71k
リリース時間 : 1/8/2024

モデル概要

SigLIPはCLIPの改良版で、損失関数の最適化により性能が向上し、ゼロショット画像分類や画像テキスト検索などのタスクに適しています。

モデル特徴

改良された損失関数
Sigmoid損失関数を採用し、画像-テキストペアのみに作用するため、グローバルな正規化が不要で、小バッチや大バッチの場合でも優れた性能を発揮します。
効率的なトレーニング
16個のTPU-v4チップを使用すると、わずか3日でトレーニングが完了し、計算効率が高いです。
マルチモーダル能力
視覚情報とテキスト情報を同時に処理し、画像とテキストのクロスモーダル理解を実現します。

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル理解

使用事例

画像理解
画像分類
特定のトレーニングなしで画像を分類でき、カスタムラベルをサポートします。
複数のデータセットで従来のCLIPモデルよりも優れた性能を示します。
情報検索
画像テキストマッチング
テキスト記述に基づいて関連画像を検索したり、画像から記述テキストを生成したりできます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase