vit_base_patch16_siglip_gap_512.v2_webliオープンソースモデル - 画像特徴抽出タスクに効率的に利用可能

Vit Base Patch16 Siglip Gap 512.v2 Webli

timmによって開発

SigLIP 2ベースのViT画像エンコーダーで、グローバル平均プーリングを採用し、注意プーリングヘッドを削除、画像特徴抽出タスクに適しています。

ダウンロード数 105

リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT画像エンコーダーで、主に画像特徴抽出に使用されます。Webliデータセットでトレーニングされ、グローバル平均プーリング（GAP）が注意プーリングヘッドの代わりに採用されています。

SigLIP 2アーキテクチャ

改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解と位置特定能力を備えています

グローバル平均プーリング

注意プーリングヘッドの代わりにグローバル平均プーリング(GAP)を使用し、モデル構造を簡素化

高密度特徴抽出

高品質な高密度画像特徴を抽出可能

画像特徴抽出

視覚的意味理解

画像位置特定

コンピュータビジョン

画像検索

抽出した画像特徴を使用して類似画像を検索

視覚的質問応答

視覚-言語モデルの画像エンコーダー部分として使用

属性	详情
データセット	webli
関連論文	SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343