E

Eva02 Base Patch14 224.mim In22k

由timm開發
EVA02基礎版視覺表示模型,通過掩碼圖像建模在ImageNet-22k上預訓練,適用於圖像分類和特徵提取任務。
下載量 2,834
發布時間 : 3/31/2023

模型概述

該模型採用改進的視覺Transformer架構,包含均值池化、SwiGLU激活函數和旋轉位置嵌入等技術,專為高效圖像特徵提取設計。

模型特點

改進的Transformer架構
採用旋轉位置嵌入(ROPE)和SwiGLU激活函數,增強位置感知能力和非線性表達能力
高效預訓練策略
使用EVA-CLIP作為MIM(掩碼圖像建模)教師模型進行知識蒸餾
多尺度特徵支持
通過forward_features方法可獲取非池化的多層級視覺特徵(257×768張量)

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類系統
用於構建高精度圖像分類器,支持224×224分辨率輸入
在ImageNet-1k上達到88.23% Top1準確率
特徵提取服務
作為視覺特徵提取器用於下游任務(如目標檢測、圖像檢索)
輸出768維特徵向量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase