V

Vit Base Patch16 Siglip 512.webli

timmによって開発
SigLIPアーキテクチャに基づく視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルのアテンションプーリングメカニズムを採用
ダウンロード数 702
リリース時間 : 12/24/2024

モデル概要

このモデルはSigLIPアーキテクチャに基づく視覚Transformerで、画像特徴抽出タスクに特化しています。Vision Transformer (ViT)構造を採用し、高品質な画像表現が必要な下流タスクに特に適しています。

モデル特徴

SigLIPアーキテクチャ
SigLIPアーキテクチャを採用し、画像エンコーディングタスクに特化、効率的なアテンションメカニズムを備える
オリジナルアテンションプーリング
オリジナルのアテンションプーリング方法を使用し、より多くの画像特徴情報を保持
ViT-B-16ベース
Vision Transformer Base 16アーキテクチャに基づき、性能と計算効率のバランスを実現

モデル能力

画像特徴抽出
視覚表現学習

使用事例

コンピュータビジョン
画像分類
特徴抽出器として画像分類タスクに使用
視覚検索
視覚検索システムに高品質な画像表現を提供
マルチモーダルアプリケーション
画像-テキストマッチング
クロスモーダルマッチングタスクの視覚エンコーダとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase