B

Beit Base Finetuned Ade 640 640

由microsoft開發
BEiT是一種基於視覺Transformer(ViT)架構的模型,通過自監督學習在ImageNet-21k上預訓練,並在ADE20k數據集上微調,專門用於圖像語義分割任務。
下載量 1,645
發布時間 : 3/2/2022

模型概述

BEiT模型採用類BERT的Transformer編碼器架構,通過掩碼圖像塊預測進行預訓練,支持高分辨率圖像語義分割,適用於場景解析等計算機視覺任務。

模型特點

自監督預訓練
使用ImageNet-21k數據集通過掩碼圖像塊預測進行預訓練,學習圖像內在表示
高分辨率微調
在ADE20k數據集上以640x640分辨率微調,優化語義分割性能
相對位置編碼
採用類似T5的相對位置編碼而非絕對位置編碼,提升模型靈活性

模型能力

圖像語義分割
場景解析
視覺特徵提取

使用案例

計算機視覺
建築物場景解析
對包含房屋、城堡等建築物的圖像進行語義分割,識別不同物體區域
在ADE20k基準數據集上取得先進結果
城市景觀分析
解析城市街道圖像,識別道路、車輛、行人等元素
在CityScapes等數據集上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase