P

Pvt Medium 224

由Xrenya開發
PVT是一種基於Transformer的視覺模型,採用金字塔結構處理圖像,在ImageNet-1K上預訓練,適用於圖像分類任務。
下載量 13
發布時間 : 3/27/2023

模型概述

該模型是一種無需卷積的視覺Transformer架構,通過漸進式金字塔結構減少計算量,主要用於圖像分類任務。

模型特點

金字塔結構設計
採用漸進式縮小金字塔結構,有效減少對大特徵圖的計算量
無卷積架構
完全基於Transformer編碼器,不依賴傳統卷積操作
全局上下文建模
通過[CLS]標記捕獲圖像全局特徵表示

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
通用圖像分類
將圖像分類為1000個ImageNet類別
在ImageNet-1K數據集上表現良好
下游任務特徵提取
作為骨幹網絡為其他視覺任務提供特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase