V

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

timmによって開発
SigLIP 2 ViT画像エンコーダー、グローバル平均プーリングを採用、アテンションプーリングヘッドを削除、timm向けに設計
ダウンロード数 17
リリース時間 : 2/21/2025

モデル概要

これはSigLIP 2ベースの視覚Transformerモデルで、画像特徴抽出専用です。アテンションプーリングヘッドの代わりにグローバル平均プーリング(GAP)を採用しており、効率的な画像特徴表現が必要なタスクに適しています。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャに基づき、強化されたセマンティック理解と特徴抽出能力を備えています
グローバル平均プーリング
アテンションプーリングヘッドの代わりにグローバル平均プーリング(GAP)を採用し、モデル構造を簡素化
大規模事前学習
webliデータセットで事前学習を行い、強力な視覚表現能力を有しています

モデル能力

画像特徴抽出
視覚的セマンティック理解
密な特徴表現

使用事例

コンピュータビジョン
画像検索
類似画像検索のための画像特徴を抽出
視覚的ローカライゼーション
視覚的ローカライゼーションタスクに密な特徴表現を提供
マルチモーダルアプリケーション
視覚言語事前学習
視覚言語モデルの視覚エンコーダーとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase