vit_so400m_patch16_siglip_gap_512.v2_webliオープンソース画像エンコーダ

Vit So400m Patch16 Siglip Gap 512.v2 Webli

timmによって開発

SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング処理を採用し、視覚言語タスクに適しています。

ダウンロード数 21

リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT画像エンコーダーで、アテンションプーリングヘッドを削除し、グローバル平均プーリング処理を採用しています。主に画像特徴抽出と視覚言語タスクに使用されます。

SigLIP 2アーキテクチャ

SigLIP 2アーキテクチャを採用し、強化されたセマンティック理解と位置特定能力を備えています。

グローバル平均プーリング

アテンションプーリングヘッドを削除し、グローバル平均プーリング処理を採用しています。

大規模事前学習

webliデータセットで事前学習を行い、強力な画像特徴抽出能力を備えています。

画像特徴抽出

視覚言語タスク処理

コンピュータビジョン

画像分類

画像分類タスクに使用可能で、画像特徴を抽出して分類します。

視覚言語タスク

画像キャプション生成などの視覚言語タスクに適しています。

属性	详情
データセット	webli
論文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343