V

Vit So400m Patch16 Siglip Gap 512.v2 Webli

timmによって開発
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング処理を採用し、視覚言語タスクに適しています。
ダウンロード数 21
リリース時間 : 2/21/2025

モデル概要

このモデルはtimm向けに設計されたSigLIP 2 ViT画像エンコーダーで、アテンションプーリングヘッドを削除し、グローバル平均プーリング処理を採用しています。主に画像特徴抽出と視覚言語タスクに使用されます。

モデル特徴

SigLIP 2アーキテクチャ
SigLIP 2アーキテクチャを採用し、強化されたセマンティック理解と位置特定能力を備えています。
グローバル平均プーリング
アテンションプーリングヘッドを削除し、グローバル平均プーリング処理を採用しています。
大規模事前学習
webliデータセットで事前学習を行い、強力な画像特徴抽出能力を備えています。

モデル能力

画像特徴抽出
視覚言語タスク処理

使用事例

コンピュータビジョン
画像分類
画像分類タスクに使用可能で、画像特徴を抽出して分類します。
視覚言語タスク
画像キャプション生成などの視覚言語タスクに適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase