P

Pvt Medium 224

Developed by Xrenya
PVT是一種基於Transformer的視覺模型,採用金字塔結構處理圖像,在ImageNet-1K上預訓練,適用於圖像分類任務。
Downloads 13
Release Time : 3/27/2023

Model Overview

該模型是一種無需卷積的視覺Transformer架構,通過漸進式金字塔結構減少計算量,主要用於圖像分類任務。

Model Features

金字塔結構設計
採用漸進式縮小金字塔結構,有效減少對大特徵圖的計算量
無卷積架構
完全基於Transformer編碼器,不依賴傳統卷積操作
全局上下文建模
通過[CLS]標記捕獲圖像全局特徵表示

Model Capabilities

圖像分類
特徵提取

Use Cases

計算機視覺
通用圖像分類
將圖像分類為1000個ImageNet類別
在ImageNet-1K數據集上表現良好
下游任務特徵提取
作為骨幹網絡為其他視覺任務提供特徵
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase