M

Mask2former Swin Base IN21k Cityscapes Instance

由facebook開發
Mask2Former是基於Transformer的通用圖像分割模型,統一處理實例、語義和全景分割任務。
下載量 53
發布時間 : 1/5/2023

模型概述

該模型通過預測一組掩碼及對應標籤實現實例分割,採用Swin Transformer骨幹網絡並在Cityscapes數據集上微調。

模型特點

統一分割架構
將實例、語義和全景分割統一為掩碼預測問題
高效注意力機制
採用多尺度可變形注意力和掩碼注意力提升計算效率
訓練優化
通過子採樣點計算損失而非整張掩碼,提高訓練效率

模型能力

圖像實例分割
多尺度特徵提取
高效掩碼預測

使用案例

計算機視覺
街景分析
對Cityscapes等街景數據集中的物體進行實例分割
可準確識別和分割道路、車輛、行人等對象
物體識別
識別和分割圖像中的特定物體實例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase