S

Siglip Base Patch16 384

googleによって開発
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたシグモイド損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
ダウンロード数 2,570
リリース時間 : 1/8/2024

モデル概要

SigLIPは損失関数を改良したCLIPマルチモーダルモデルで、そのシグモイド損失関数は画像-テキストペアにのみ作用し、グローバルな類似度による正規化を必要としません。ゼロショット画像分類や画像テキスト検索などのタスクに適しています。

モデル特徴

改良された損失関数
シグモイド損失関数を採用し、画像-テキストペアにのみ作用し、グローバルな類似度による正規化を必要としないため、バッチサイズを拡大しながらも、小規模バッチのシナリオでも優れた性能を発揮します。
効率的なトレーニング
16個のTPU-v4チップを使用すると、わずか3日でトレーニングが完了します。
高解像度サポート
384x384解像度の画像入力をサポートしています。

モデル能力

ゼロショット画像分類
画像テキスト検索

使用事例

画像分類
動物認識
画像中の動物の種類(猫、犬など)を識別します。
画像中の動物の種類を正確に識別できます。
画像テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
テキスト記述に基づいて効率的に関連画像を検索できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase