C

Cvt 21

由microsoft開發
CvT-21是基於ImageNet-1k數據集預訓練的視覺變換器模型,通過引入卷積操作改進傳統視覺變換器。
下載量 589
發布時間 : 4/4/2022

模型概述

該模型結合了卷積神經網絡和變換器的優勢,用於圖像分類任務,支持ImageNet的1,000個類別分類。

模型特點

卷積與變換器結合
在視覺變換器中引入卷積操作,提升局部特徵提取能力。
高效圖像分類
在ImageNet-1k數據集上表現出色,能準確分類1,000種物體類別。
224x224分辨率支持
支持標準ImageNet輸入分辨率,兼容常見視覺任務需求。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
物體識別
識別圖像中的物體類別,如動物、日常用品等。
示例中準確識別了老虎、茶壺等物體。
場景分類
對複雜場景進行分類,如識別建築類型。
示例中正確識別了宮殿場景。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase