C

Cvt 21 384

由microsoft開發
CvT-21是基於卷積視覺變換器架構的圖像分類模型,在ImageNet-1k數據集上以384x384分辨率預訓練。
下載量 29
發布時間 : 4/4/2022

模型概述

該模型結合了卷積神經網絡和視覺變換器的優勢,用於圖像分類任務,能夠將圖像分類為1,000個ImageNet類別。

模型特點

卷積與變換器結合
將卷積操作引入視覺變換器架構,兼具CNN的局部特徵提取能力和Transformer的全局建模能力
高分辨率處理
支持384x384高分辨率圖像輸入,能捕捉更精細的圖像特徵
高效計算
通過卷積操作降低計算複雜度,相比純Transformer架構更高效

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
物體識別
識別圖像中的物體類別
可準確分類1,000種常見物體
場景理解
分析圖像場景內容
能識別自然場景、室內環境等多種場景
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase