B

Beit Large Patch16 224

由microsoft開發
BEiT是一種基於視覺Transformer(ViT)架構的圖像分類模型,通過自監督學習在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
下載量 222.46k
發布時間 : 3/2/2022

模型概述

BEiT模型採用類似BERT的Transformer編碼器架構,通過預測掩碼圖像塊的視覺標記進行自監督預訓練,最終用於圖像分類任務。

模型特點

自監督預訓練
採用類似BERT的掩碼預測方法在ImageNet-21k上進行自監督預訓練
相對位置編碼
使用類似T5的相對位置編碼而非絕對位置編碼
高效特徵提取
通過平均池化所有圖像塊的最終隱藏狀態進行分類,而非依賴[CLS]標記

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將輸入圖像分類為1000個ImageNet類別之一
在ImageNet基準測試上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase