S

Siglip2 Base Patch16 384

googleによって開発
SigLIP 2はSigLIPを基にした視覚言語モデルで、統一されたトレーニング手法により意味理解、位置特定、高密度特徴抽出能力を向上させています。
ダウンロード数 4,832
リリース時間 : 2/17/2025

モデル概要

このモデルはゼロショット画像分類や画像テキスト検索などのタスクに直接使用できるほか、視覚言語モデルの視覚エンコーダーとしても利用可能です。

モデル特徴

統一トレーニング手法
複数の技術を統合した統一トレーニング手法により、意味理解、位置特定、高密度特徴抽出能力を向上させています。
マルチタスクサポート
ゼロショット画像分類、画像テキスト検索など様々なタスクをサポートし、視覚エンコーダーとしても使用可能です。
効率的なトレーニング
WebLIデータセットを使用した事前トレーニングを実施し、最大2048個のTPU-v5eチップを使用してトレーニングを完了しました。

モデル能力

ゼロショット画像分類
画像テキスト検索
画像特徴抽出

使用事例

画像理解
ゼロショット画像分類
特定のトレーニングなしで画像を分類可能
提供された候補ラベルに基づいて最も可能性の高い分類結果を返します
視覚エンコーダー
他の視覚タスクのための視覚特徴抽出器として機能
高品質な画像埋め込み特徴を抽出可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase