S

Siglip2 So400m Patch16 Naflex

googleによって開発
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
ダウンロード数 159.81k
リリース時間 : 2/18/2025

モデル概要

SigLIP 2は視覚言語モデルで、ゼロショット画像分類、画像テキスト検索などのタスクや、他の視覚タスクのための視覚エンコーダとして使用できます。

モデル特徴

強化された意味理解
デコーダ損失、グローバル-ローカル、マスク予測損失などの技術を統合することで、意味理解能力を向上させました。
アスペクト比と解像度の適応性
異なるアスペクト比と解像度の画像処理をサポートし、モデルの適応性を強化しました。
マルチタスクサポート
ゼロショット画像分類、画像テキスト検索など、さまざまな視覚言語タスクに使用できます。

モデル能力

ゼロショット画像分類
画像テキスト検索
視覚エンコーディング

使用事例

画像分類
ゼロショット画像分類
トレーニングなしで画像を分類でき、迅速な展開が可能なシナリオに適しています。
カスタム候補ラベルをサポートし、分類確率を出力します。
画像テキスト検索
画像検索
テキスト記述に基づいて関連画像を検索します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase