V

Vit Base Patch16 Siglip Gap 224.webli

由timm開發
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用全局平均池化策略
下載量 178
發布時間 : 12/24/2024

模型概述

該模型是SigLIP框架中的視覺編碼器組件,專為圖像特徵提取設計,適用於需要高效視覺表示的任務

模型特點

SigLIP優化架構
採用SigLIP框架的改進視覺Transformer結構,優化了圖像表示能力
全局平均池化
使用全局平均池化(GAP)替代傳統CLS token,可能提升特徵穩定性
高效特徵提取
專為圖像特徵提取任務優化,輸出緊湊的視覺表示向量

模型能力

圖像特徵提取
視覺表示學習
圖像內容分析

使用案例

計算機視覺
圖像檢索系統
提取圖像特徵用於相似性搜索
高效生成緊湊的圖像表示向量
多模態學習
作為視覺編碼器與其他模態模型配合使用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase