V

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

Developed by timm
SigLIP 2 ViT画像エンコーダー、グローバル平均プーリングを採用、アテンションプーリングヘッドを削除、timm向けに設計
Downloads 17
Release Time : 2/21/2025

Model Overview

これはSigLIP 2ベースの視覚Transformerモデルで、画像特徴抽出専用です。アテンションプーリングヘッドの代わりにグローバル平均プーリング(GAP)を採用しており、効率的な画像特徴表現が必要なタスクに適しています。

Model Features

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャに基づき、強化されたセマンティック理解と特徴抽出能力を備えています
グローバル平均プーリング
アテンションプーリングヘッドの代わりにグローバル平均プーリング(GAP)を採用し、モデル構造を簡素化
大規模事前学習
webliデータセットで事前学習を行い、強力な視覚表現能力を有しています

Model Capabilities

画像特徴抽出
視覚的セマンティック理解
密な特徴表現

Use Cases

コンピュータビジョン
画像検索
類似画像検索のための画像特徴を抽出
視覚的ローカライゼーション
視覚的ローカライゼーションタスクに密な特徴表現を提供
マルチモーダルアプリケーション
視覚言語事前学習
視覚言語モデルの視覚エンコーダーとして使用
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase