vit_so400m_patch14_siglip_gap_224.v2_webliオープンソースモデル - 画像特徴抽出タスクに効率的に使用注：你原文似乎可能有笔误，推测原本或许是“vit_s0400m_patch14_siglip_gap_224.v2

Vit So400m Patch14 Siglip Gap 224.v2 Webli

timmによって開発

SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、注意プーリングヘッドを削除、画像特徴抽出タスクに適しています。

ダウンロード数 179

リリース時間 : 2/21/2025

モデル概要

これはtimm向けに設計されたSigLIP 2 ViT画像エンコーダーで、HuggingFace上のViT-SO400M-14-SigLIP2モデルの画像タワー部分と同等です。このgapバリアントは注意プーリングヘッドの代わりにグローバル平均プーリングを使用しています。

SigLIP 2アーキテクチャ

改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、高密度特徴抽出能力を備えています

グローバル平均プーリング

注意プーリングヘッドの代わりにグローバル平均プーリング(gap)を使用し、モデル構造を簡素化

大規模事前学習

webliデータセットで事前学習を行い、強力な視覚表現能力を有しています

画像特徴抽出

視覚的意味理解

画像位置特定

高密度特徴抽出

コンピュータビジョン

画像分類

画像分類タスクの特徴抽出器として使用可能

視覚的質問応答

視覚的質問応答システムに画像特徴表現を提供

マルチモーダルアプリケーション

画像テキストマッチング

画像テキストマッチングタスクにおける画像エンコーディングに使用

属性	详情
データセット	webli
論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343