V

Vit Base Patch16 Siglip 512.webli

由timm開發
基於SigLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
下載量 702
發布時間 : 12/24/2024

模型概述

該模型是基於SigLIP架構的視覺Transformer,專注於圖像特徵提取任務。它採用Vision Transformer (ViT)結構,特別適用於需要高質量圖像表示的下游任務。

模型特點

SigLIP架構
採用SigLIP架構,專注於圖像編碼任務,具有高效的注意力機制
原始注意力池化
使用原始注意力池化方法,保留更多圖像特徵信息
ViT-B-16基礎
基於Vision Transformer Base 16架構,平衡性能和計算效率

模型能力

圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
作為特徵提取器用於圖像分類任務
視覺搜索
為視覺搜索系統提供高質量的圖像表示
多模態應用
圖像-文本匹配
作為視覺編碼器用於跨模態匹配任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase