V

Vit So400m Patch14 Siglip 384.webli

由timm開發
基於SigLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
下載量 9,429
發布時間 : 12/24/2024

模型概述

該模型是SigLIP(Sigmoid Loss for Language-Image Pre-training)架構的視覺編碼器實現,專注於圖像特徵提取任務,適用於需要高效視覺表示的場景

模型特點

高效圖像編碼
專注於圖像特徵提取,提供高效的視覺表示
原始注意力池化
採用原始注意力機制進行特徵池化,保留更多圖像細節
SigLIP架構
基於Sigmoid損失優化的語言-圖像預訓練架構

模型能力

圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像檢索
提取圖像特徵用於相似圖片搜索
視覺內容理解
為下游任務提供高質量的視覺表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase