M

Mask2former Swin Large Cityscapes Instance

由facebook開發
基於Swin大骨架架構的統一圖像分割模型,支持實例/語義/全景分割任務
下載量 1,248
發布時間 : 1/5/2023

模型概述

Mask2Former是採用Transformer架構的統一圖像分割模型,通過預測掩碼及對應標籤實現實例分割、語義分割和全景分割三大任務的統一處理。

模型特點

統一分割框架
將實例分割、語義分割和全景分割統一視為掩碼預測問題
多尺度可變形注意力
像素解碼器採用多尺度可變形注意力機制提升特徵提取能力
掩碼注意力解碼器
創新性引入帶掩碼注意力的Transformer解碼器,在不增加計算量的情況下提升性能
高效訓練策略
通過子採樣點計算損失值,顯著提升訓練效率

模型能力

實例分割
語義分割
全景分割
圖像場景理解

使用案例

自動駕駛
道路場景解析
識別城市道路中的車輛、行人、交通標誌等實例
在Cityscapes數據集上達到SOTA性能
醫學影像
器官分割
識別醫學影像中的特定器官或病變區域
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase