V

Vit Base Patch32 Siglip 256.v2 Webli

timmによって開発
SigLIP 2アーキテクチャに基づく視覚Transformerモデル、画像特徴抽出専用に設計
ダウンロード数 27
リリース時間 : 2/21/2025

モデル概要

これはSigLIP 2アーキテクチャに基づく視覚Transformerモデルで、画像エンコーダ部分のみを含み、画像特徴抽出タスクに適しています。モデルはwebliデータセットでトレーニングされ、Sigmoid損失関数を使用して事前学習されています。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、強化されたセマンティック理解と位置特定能力を備える
Sigmoid損失関数
Sigmoid損失関数を使用して事前学習を行い、言語-画像のアラインメントを最適化
密な特徴抽出
画像の密な特徴を抽出可能で、様々な下流視覚タスクに適用可能

モデル能力

画像特徴抽出
視覚的セマンティック理解
画像-テキストアラインメント

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を利用して類似画像を検索
視覚的質問応答
視覚的質問応答システムの視覚エンコーダとして使用
マルチモーダルアプリケーション
画像とテキストのマッチング
画像とテキスト記述の関連性を評価
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase