C

Cvt 13

由microsoft開發
CvT-13是一種結合卷積神經網絡和視覺變換器的混合架構模型,在ImageNet-1k數據集上預訓練完成,適用於圖像分類任務。
下載量 21.80k
發布時間 : 4/4/2022

模型概述

該模型通過引入卷積操作改進視覺變換器,在保持變換器優勢的同時增強了局部特徵提取能力,主要用於圖像分類任務。

模型特點

卷積-變換器混合架構
結合CNN的局部特徵提取能力和變換器的全局建模優勢
高效圖像處理
在ImageNet-1k上預訓練,支持224x224分辨率圖像分類
輕量級設計
相比純變換器模型具有更少的參數和計算量(具體參數規模未公開)

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用物體識別
對日常物體進行準確分類識別
可識別ImageNet-1k中的1000個類別
場景理解
識別圖像中的場景類型(如宮殿、自然景觀等)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase