V

Vit So400m Patch16 Siglip Gap 256.v2 Webli

timmによって開発
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、アテンションプーリングヘッドを削除、画像特徴抽出タスクに適しています。
ダウンロード数 22
リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT(画像エンコーダーのみ)で、グローバル平均プーリング(GAP)をアテンションプーリングヘッドの代わりに使用し、主に画像特徴抽出タスクに使用されます。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、高密度特徴抽出能力を備えています。
グローバル平均プーリング
グローバル平均プーリング(GAP)を使用してアテンションプーリングヘッドを置き換え、モデル構造を簡素化しています。
多言語サポート
webliデータセットに基づいて訓練され、多言語処理能力を備えています。

モデル能力

画像特徴抽出
意味理解
視覚的位置特定

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を利用して効率的な画像検索を行います。
視覚的質問応答
ビジョン-ランゲージモデルの画像エンコーダー部分として使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase