S

Siglip2 Base Patch16 Naflex

googleによって開発
SigLIP 2は多言語視覚-言語エンコーダーで、SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解、位置特定、高密度特徴抽出能力を向上させました。
ダウンロード数 10.68k
リリース時間 : 2/18/2025

モデル概要

SigLIP 2はゼロショット画像分類、画像テキスト検索などのタスクに使用可能で、視覚言語モデルの視覚エンコーダーとしても利用できます。

モデル特徴

強化された意味理解
SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解能力を向上させました。
位置特定と高密度特徴抽出
改良された訓練目標により、位置特定と高密度特徴抽出能力が強化されました。
マルチタスクサポート
ゼロショット画像分類、画像テキスト検索など様々な視覚-言語タスクをサポートします。

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚エンコーディング

使用事例

画像分類
ゼロショット画像分類
微調整なしで画像を分類可能、カスタムラベルをサポートします。
画像テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase