S

Siglip Large Patch16 256

googleによって開発
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数により性能を向上
ダウンロード数 24.13k
リリース時間 : 1/8/2024

モデル概要

SigLIPは損失関数を改良したCLIPマルチモーダルモデルで、ゼロショット画像分類や画像テキスト検索などのタスクに適しています

モデル特徴

改良された損失関数
シグモイド損失関数を採用し、グローバル正規化が不要で、小バッチや大バッチのシナリオでも優れた性能を発揮
効率的な事前学習
16個のTPU-v4チップでわずか3日間のトレーニングで完了
マルチモーダル理解
画像とテキスト情報を同時に処理し、クロスモーダルの意味的整合性を実現

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル検索

使用事例

コンテンツ理解
ソーシャルメディア画像分類
トレーニング不要でユーザーアップロード画像を自動分類
従来のCLIPモデルよりも精度が優れている
電子商取引
商品画像とテキストのマッチング
商品画像と説明テキストの一貫性を自動検出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase