S

Siglip So400m Patch14 384

googleによって開発
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
ダウンロード数 6.1M
リリース時間 : 1/8/2024

モデル概要

SigLIPは損失関数を改良したCLIPマルチモーダルモデルで、ゼロショット画像分類や画像テキスト検索などのタスクに適しています。そのシグモイド損失関数はグローバルな類似度による正規化を必要とせず、異なるバッチサイズでも優れた性能を発揮します。

モデル特徴

改良された損失関数
シグモイド損失関数を採用し、画像-テキストペアのみに作用し、グローバルな類似度正規化を必要とせず、小規模および大規模バッチでの性能を最適化します。
計算最適形状最適化
SoViT-400mアーキテクチャに基づき、計算最適形状最適化設計によりモデル効率を向上させます。
高解像度サポート
384x384解像度の画像入力をサポートし、高精度な視覚タスクに適しています。

モデル能力

ゼロショット画像分類
画像テキスト検索
マルチモーダル理解

使用事例

画像分類
動物認識
画像中の動物の種類(猫、犬など)を識別します。
高精度なゼロショット分類能力。
画像テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
効率的な画像-テキストマッチング能力。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase