S

Siglip So400m Patch16 256 I18n

googleによって開発
SoViTバックボーンネットワークを基盤とし、シグモイド損失関数を改良したマルチモーダルモデルで、ゼロショット画像分類と画像テキスト検索をサポート
ダウンロード数 230
リリース時間 : 10/21/2024

モデル概要

SigLIPはCLIPモデルを改良した視覚-言語事前学習モデルで、シグモイド損失関数により訓練プロセスを最適化し、より大きなバッチサイズでの訓練を可能にし、小バッチサイズのシナリオでも優れた性能を発揮

モデル特徴

シグモイド損失関数
画像-テキストペアにのみ作用し、グローバルな類似度正規化を必要とせず、より大きなバッチサイズでの訓練をサポート
計算最適化アーキテクチャ
SoViT-400m形状最適化バージョンを採用し、計算効率を最大化
多言語サポート
256解像度の多言語コーパスで事前学習され、国際化アプリケーションをサポート

モデル能力

ゼロショット画像分類
画像テキスト検索
マルチモーダル理解

使用事例

コンテンツ分類
動物認識
画像中の猫や犬などの動物を識別
猫と犬の画像を正確に区別できることを示す例
メディア分析
シーン理解
画像中の活動タイプを識別(例:音楽演奏、スポーツ)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase