vit_so400m_patch16_siglip_gap_256.v2_webliオープンソースモデル

Vit So400m Patch16 Siglip Gap 256.v2 Webli

timmによって開発

SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、アテンションプーリングヘッドを削除、画像特徴抽出タスクに適しています。

ダウンロード数 22

リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT（画像エンコーダーのみ）で、グローバル平均プーリング（GAP）をアテンションプーリングヘッドの代わりに使用し、主に画像特徴抽出タスクに使用されます。

SigLIP 2アーキテクチャ

改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、高密度特徴抽出能力を備えています。

グローバル平均プーリング

グローバル平均プーリング（GAP）を使用してアテンションプーリングヘッドを置き換え、モデル構造を簡素化しています。

多言語サポート

webliデータセットに基づいて訓練され、多言語処理能力を備えています。

画像特徴抽出

意味理解

視覚的位置特定

コンピュータビジョン

画像検索

抽出した画像特徴を利用して効率的な画像検索を行います。

視覚的質問応答

ビジョン-ランゲージモデルの画像エンコーダー部分として使用されます。

属性	详情
データセット	webli
論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343