V

Vit So400m Patch14 Siglip 224.webli

由timm開發
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
下載量 123
發布時間 : 12/24/2024

模型概述

這是一個基於SigLIP架構的視覺Transformer模型,專門用於圖像特徵提取任務。模型採用14x14的patch大小和224x224的輸入分辨率。

模型特點

SigLIP注意力池化
採用SigLIP架構特有的注意力池化機制,優化圖像特徵提取效果
大模型規模
400M參數的較大規模視覺模型,能夠捕捉更豐富的圖像特徵
高分辨率處理
支持224x224輸入分辨率,適合處理細節豐富的圖像

模型能力

圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
可作為圖像分類任務的基礎特徵提取器
視覺搜索
用於構建視覺搜索引擎的特徵提取組件
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase