B

Beit Large Patch16 384

由microsoft開發
BEiT是一種基於視覺Transformer的圖像分類模型,通過自監督方式在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
下載量 44
發布時間 : 3/2/2022

模型概述

BEiT模型是一種視覺Transformer(ViT),以自監督方式在大量圖像上預訓練,並通過微調用於圖像分類任務。

模型特點

自監督預訓練
使用ImageNet-21k數據集進行自監督預訓練,學習圖像的內在表示。
高分辨率微調
在ImageNet-1k上以384x384分辨率進行微調,提升分類性能。
相對位置嵌入
使用相對位置嵌入(類似T5)而非絕對位置嵌入,增強模型靈活性。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為1,000個ImageNet類別之一。
在ImageNet數據集上表現出色。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase