B

Beit Large Patch16 224

Developed by microsoft
BEiT是一種基於視覺Transformer(ViT)架構的圖像分類模型,通過自監督學習在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
Downloads 222.46k
Release Time : 3/2/2022

Model Overview

BEiT模型採用類似BERT的Transformer編碼器架構,通過預測掩碼圖像塊的視覺標記進行自監督預訓練,最終用於圖像分類任務。

Model Features

自監督預訓練
採用類似BERT的掩碼預測方法在ImageNet-21k上進行自監督預訓練
相對位置編碼
使用類似T5的相對位置編碼而非絕對位置編碼
高效特徵提取
通過平均池化所有圖像塊的最終隱藏狀態進行分類,而非依賴[CLS]標記

Model Capabilities

圖像分類
視覺特徵提取

Use Cases

計算機視覺
ImageNet圖像分類
將輸入圖像分類為1000個ImageNet類別之一
在ImageNet基準測試上表現優異
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase