V

Vit So400m Patch14 Siglip 384.webli

timmによって開発
SigLIPアーキテクチャに基づくVision Transformerモデル、画像エンコーダ部分のみを含み、生のアテンションプーリングメカニズムを採用
ダウンロード数 9,429
リリース時間 : 12/24/2024

モデル概要

このモデルはSigLIP(言語-画像事前学習のためのシグモイド損失)アーキテクチャの視覚エンコーダ実装で、画像特徴抽出タスクに特化し、効率的な視覚表現が必要なシナリオに適しています

モデル特徴

効率的な画像エンコーディング
画像特徴抽出に特化し、効率的な視覚表現を提供
生のアテンションプーリング
生のアテンションメカニズムを使用した特徴プーリングで、より多くの画像詳細を保持
SigLIPアーキテクチャ
シグモイド損失最適化に基づく言語-画像事前学習アーキテクチャ

モデル能力

画像特徴抽出
視覚表現学習

使用事例

コンピュータビジョン
画像検索
類似画像検索のための画像特徴を抽出
視覚コンテンツ理解
下流タスク向けに高品質な視覚表現を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase