V

Vit Large Patch16 224.mae

由timm開發
基於視覺變換器(ViT)的大型圖像特徵提取模型,採用自監督掩碼自編碼器(MAE)方法在ImageNet-1k數據集上預訓練
下載量 960
發布時間 : 5/9/2023

模型概述

該模型是一個視覺變換器架構的大型圖像特徵提取模型,主要用於圖像分類和特徵提取任務。通過掩碼自編碼器(MAE)的自監督學習方法在ImageNet-1k數據集上進行預訓練。

模型特點

自監督預訓練
採用掩碼自編碼器(MAE)方法進行自監督預訓練,無需大量標註數據即可學習有效特徵表示
大規模視覺變換器
基於ViT-Large架構,具有303.3M參數,能夠捕捉豐富的視覺特徵
高效特徵提取
支持提取圖像全局特徵或局部patch特徵,適用於多種下游視覺任務

模型能力

圖像分類
圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於對圖像進行分類,支持1000類ImageNet分類任務
特徵提取
可作為特徵提取器用於下游視覺任務,如目標檢測、圖像分割等
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase