B

Beit Large Patch16 224 Pt22k

由microsoft開發
BEiT是一種基於視覺Transformer(ViT)的自監督學習模型,通過ImageNet-21k數據集預訓練,用於圖像分類任務。
下載量 237
發布時間 : 3/2/2022

模型概述

BEiT模型採用類似BERT的Transformer編碼器結構,通過自監督方式在ImageNet-21k數據集上預訓練,學習圖像的內部表示,可用於提取下游任務的特徵。

模型特點

自監督預訓練
通過掩碼圖像塊預測視覺標記的方式進行預訓練,無需標註數據。
相對位置嵌入
採用類似T5的相對位置嵌入,而非絕對位置嵌入,提升模型靈活性。
圖像塊平均池化
通過平均池化圖像塊的最終隱藏狀態進行分類,而非依賴[CLS]標記。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
可用於對圖像進行分類,識別圖像中的對象或場景。
在多個圖像分類基準上表現優異(具體數據參見原論文)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase