S

Siglip Base Patch16 224

googleによって開発
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化
ダウンロード数 250.28k
リリース時間 : 9/30/2023

モデル概要

SigLIPはCLIPモデルの改良版で、Sigmoid損失関数により画像とテキストのマッチング効果を最適化し、ゼロショット画像分類や画像テキスト検索などのタスクに適している

モデル特徴

改良されたSigmoid損失関数
グローバルな類似度正規化が不要で、小バッチと大バッチのシナリオの両方で優れたパフォーマンスを発揮
効率的な事前学習
WebLI大規模データセットに基づく事前学習で、豊富な視覚言語表現を学習
ゼロショット能力
微調整なしで直接画像分類や検索タスクに適用可能

モデル能力

ゼロショット画像分類
画像テキスト検索
マルチモーダル理解

使用事例

画像理解
動物認識
画像中の動物の種類を識別
猫、犬などの一般的な動物を正確に区別可能
シーン理解
画像中のシーンや活動を理解
'音楽を演奏'、'スポーツをする'などの活動を認識可能
コンテンツ検索
画像テキストマッチング
テキスト記述に基づいて関連画像を検索
画像と記述テキストを効率的にマッチング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase