C

Cvt W24 384 22k

由microsoft開發
CvT-w24是基於ImageNet-22k預訓練並在384x384分辨率下微調的視覺變換器模型,通過引入卷積改進傳統視覺變換器。
下載量 66
發布時間 : 5/18/2022

模型概述

該模型結合了卷積神經網絡和視覺變換器的優勢,用於圖像分類任務,特別適合處理高分辨率圖像。

模型特點

卷積增強的視覺變換器
通過引入卷積操作改進傳統視覺變換器,提升局部特徵提取能力
高分辨率支持
專為384x384分辨率圖像優化,適合處理高質量視覺數據
兩階段訓練
先在ImageNet-22k大規模數據集預訓練,再在ImageNet-1k微調

模型能力

圖像分類
視覺特徵提取
高分辨率圖像處理

使用案例

計算機視覺
物體識別
識別圖像中的物體類別(如動物、日常用品等)
可準確分類ImageNet-1k中的1000個類別
場景理解
分析複雜場景中的主要元素
能識別建築、自然景觀等高級語義內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase