vit_so400m_patch16_siglip_gap_384.v2_webliオープンソースモデル

Vit So400m Patch16 Siglip Gap 384.v2 Webli

timmによって開発

SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、注意プーリングヘッドを削除、画像特徴抽出タスクに適しています。

ダウンロード数 19

リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT画像エンコーダーで、主に画像特徴抽出に使用されます。Webliデータセットでトレーニングされ、グローバル平均プーリング（GAP）が注意プーリングヘッドの代わりに使用されています。

SigLIP 2アーキテクチャ

改良されたSigLIP 2アーキテクチャを採用し、より優れたセマンティック理解、位置特定、高密度特徴抽出能力を備えています

グローバル平均プーリング

注意プーリングヘッドの代わりにグローバル平均プーリング(GAP)を使用し、モデル構造を簡素化

大規模事前学習

Webli大規模データセットに基づく事前学習

画像特徴抽出

視覚的セマンティック理解

高密度特徴抽出

コンピュータビジョン

画像検索

抽出した画像特徴を利用した類似画像検索

視覚的位置特定

画像内の特定領域やオブジェクトの識別と理解

マルチモーダルアプリケーション

視覚-言語タスク

視覚-言語連携タスクのための視覚エンコーダーとして使用

属性	详情
データセット	webli
論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343