V

Vit Giantopt Patch16 Siglip Gap 384.v2 Webli

timmによって開発
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング処理を採用し、注意プーリングヘッドを削除した画像特徴抽出タスクに適しています。
ダウンロード数 21
リリース時間 : 2/21/2025

モデル概要

このモデルはtimm専用に設計されたSigLIP 2 ViT画像エンコーダーで、主に画像特徴抽出に使用されます。HuggingFace上のViT-gopt-16-SigLIP2-384モデルの画像タワー部分と同等ですが、グローバル平均プーリング(gap)バリアントを採用しています。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れたセマンティック理解と位置特定能力を備えています
グローバル平均プーリング
グローバル平均プーリング(gap)バリアントを使用し、注意プーリングヘッドを削除しました
Webliデータセットでのトレーニング
Webliデータセットで事前学習を行い、広範な視覚表現能力を持っています

モデル能力

画像特徴抽出
視覚的セマンティック理解
画像位置特定

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を利用して類似画像を検索します
視覚的質問応答
視覚的質問応答システムの視覚エンコーダーとして使用されます
マルチモーダルアプリケーション
画像とテキストのマッチング
画像とテキストのマッチングタスクに使用されます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase