V

Vit Large Patch16 Siglip 384.v2 Webli

timmによって開発
SigLIP 2アーキテクチャに基づく視覚Transformerモデル、画像特徴抽出のために設計され、webliデータセットで事前学習済み
ダウンロード数 4,265
リリース時間 : 2/21/2025

モデル概要

このモデルはSigLIP 2論文で説明された視覚エンコーダ部分で、ViT-Largeアーキテクチャを採用し、効率的な画像特徴抽出とマルチモーダル理解能力に焦点を当てています

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigmoid損失関数を使用した事前学習により、モデルのマルチモーダル理解能力を強化
高解像度処理
384x384解像度の入力をサポート、高品質画像の処理に適しています
高密度特徴抽出
豊富な画像特徴表現を生成可能、下流の視覚タスクに適用可能

モデル能力

画像特徴抽出
マルチモーダル理解
視覚的意味エンコーディング

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を利用して類似画像検索を実施
高精度な検索効果
視覚的質問応答
マルチモーダル質問応答システムの視覚エンコーダとして使用
質問応答の精度向上
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述のマッチング度合いを評価
改善されたクロスモーダルアライメント能力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase