C

Cvt 21

由 microsoft 开发
CvT-21是基于ImageNet-1k数据集预训练的视觉变换器模型,通过引入卷积操作改进传统视觉变换器。
下载量 589
发布时间 : 4/4/2022

模型简介

该模型结合了卷积神经网络和变换器的优势,用于图像分类任务,支持ImageNet的1,000个类别分类。

模型特点

卷积与变换器结合
在视觉变换器中引入卷积操作,提升局部特征提取能力。
高效图像分类
在ImageNet-1k数据集上表现出色,能准确分类1,000种物体类别。
224x224分辨率支持
支持标准ImageNet输入分辨率,兼容常见视觉任务需求。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
物体识别
识别图像中的物体类别,如动物、日常用品等。
示例中准确识别了老虎、茶壶等物体。
场景分类
对复杂场景进行分类,如识别建筑类型。
示例中正确识别了宫殿场景。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase