P

Pvt Tiny 224

由Xrenya開發
金字塔視覺變換器(PVT)是一種基於變換器架構的視覺模型,專為圖像分類任務設計。
下載量 25
發布時間 : 3/25/2023

模型概述

該模型在ImageNet-1K數據集上進行了預訓練和微調,能夠將圖像分類為1000個類別。它採用金字塔結構減少計算量,適合密集預測任務。

模型特點

金字塔結構
採用漸進式縮小金字塔減少計算量,提高對大特徵圖的處理效率
變換器編碼器
基於變換器架構,通過自注意力機制捕捉圖像全局信息
CLS標記分類
使用[CLS]標記作為圖像整體表示,便於分類任務

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
將輸入圖像分類為1000個ImageNet類別
在ImageNet-1K數據集上表現良好
特徵提取
提取圖像特徵用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase