B

Beit Large Finetuned Ade 640 640

由microsoft開發
BEiT是一種基於視覺Transformer架構的圖像分割模型,通過自監督預訓練和ADE20k數據集微調實現高效語義分割。
下載量 14.97k
發布時間 : 3/2/2022

模型概述

該模型採用類BERT的Transformer編碼器架構,專為圖像語義分割任務設計,在ADE20k等基準數據集上表現優異。

模型特點

自監督預訓練
在ImageNet-21k上通過掩碼圖像塊預測任務進行預訓練,學習通用視覺表示
高分辨率微調
在ADE20k數據集上以640x640分辨率微調,適應語義分割任務
相對位置編碼
採用類似T5的相對位置編碼而非絕對位置編碼,提升位置感知能力

模型能力

圖像語義分割
場景理解
視覺特徵提取

使用案例

計算機視覺
建築場景解析
對房屋、城堡等建築場景進行像素級語義分割
在ADE20k數據集上達到SOTA效果
城市景觀分析
識別城市環境中的道路、建築、植被等要素
在CityScapes等基準測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase