B

Beit Large Patch16 512

由 microsoft 开发
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
下载量 683
发布时间 : 3/2/2022

模型简介

BEiT模型采用类似BERT的Transformer编码器架构,通过掩码图像建模进行预训练,支持高分辨率图像分类任务。

模型特点

自监督预训练
使用ImageNet-21k数据集通过掩码图像建模进行预训练,学习图像的通用表示
高分辨率支持
支持512x512分辨率输入,相比标准224x224分辨率能捕捉更多细节
相对位置嵌入
采用类似T5的相对位置嵌入而非绝对位置嵌入,可能提升模型泛化能力

模型能力

图像分类
特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为1000个ImageNet类别
在ImageNet验证集上达到高准确率(具体数值未提供)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase