B

Beit Large Patch16 512

由microsoft開發
BEiT是一種基於視覺Transformer的圖像分類模型,通過自監督方式在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
下載量 683
發布時間 : 3/2/2022

模型概述

BEiT模型採用類似BERT的Transformer編碼器架構,通過掩碼圖像建模進行預訓練,支持高分辨率圖像分類任務。

模型特點

自監督預訓練
使用ImageNet-21k數據集通過掩碼圖像建模進行預訓練,學習圖像的通用表示
高分辨率支持
支持512x512分辨率輸入,相比標準224x224分辨率能捕捉更多細節
相對位置嵌入
採用類似T5的相對位置嵌入而非絕對位置嵌入,可能提升模型泛化能力

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
通用圖像分類
將圖像分類為1000個ImageNet類別
在ImageNet驗證集上達到高準確率(具體數值未提供)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase