S

Siglip So400m Patch14 224

googleによって開発
SigLIPはCLIPを改良したマルチモーダルモデルで、より優れたSigmoid損失関数を採用し、WebLiデータセットで事前学習されており、ゼロショット画像分類や画像-テキスト検索などのタスクに適しています。
ダウンロード数 6,654
リリース時間 : 8/23/2024

モデル概要

SigLIPはCLIPの改良版で、Sigmoid損失関数を使用して画像-テキストペアの処理を最適化し、グローバル正規化が不要で、小規模バッチやバッチサイズ拡大時にも優れた性能を発揮します。

モデル特徴

最適化された損失関数
Sigmoid損失関数を採用し、画像-テキストペアにのみ作用し、グローバル正規化が不要で、小規模バッチや大規模バッチの両方で優れた性能を発揮します。
形状最適化アーキテクチャ
SoViT-400mアーキテクチャを基にしており、計算効率が最適化されたモデル設計です。
マルチモーダル能力
画像とテキストを同時に処理し、ゼロショット画像分類や画像-テキスト検索などのタスクをサポートします。

モデル能力

ゼロショット画像分類
画像-テキスト検索
マルチモーダル理解

使用事例

画像分類
動物識別
画像中の動物の種類(猫、犬など)を識別します。
高精度なゼロショット分類能力。
シーン認識
画像中のシーン(空、花など)を識別します。
異なるシーンを正確に区別できます。
画像-テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
効率的な画像-テキストマッチング能力。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase