M

Mask2former Swin Large Coco Instance

由facebook開發
Mask2Former是基於Transformer的統一圖像分割模型,採用Swin-Large骨幹網絡並在COCO數據集上微調,專精實例分割任務
下載量 37.31k
發布時間 : 1/2/2023

模型概述

該模型通過預測一組掩碼及對應標籤實現實例分割,採用多尺度可變形注意力機制提升性能,是MaskFormer的改進版本

模型特點

統一分割框架
通過相同架構處理實例/語義/全景分割任務,簡化流程
多尺度可變形注意力
替代傳統像素解碼器,顯著提升特徵提取效率
掩碼注意力機制
在Transformer解碼器中引入掩碼注意力,提升性能而不增加計算負擔
高效訓練策略
通過採樣點計算損失而非整張掩碼,訓練速度提升3倍

模型能力

圖像實例分割
多目標檢測與分割
複雜場景解析

使用案例

計算機視覺
物體實例分割
對圖像中的每個物體實例生成精確分割掩碼
在COCO數據集上達到SOTA性能
場景理解
解析複雜場景中的物體分佈與空間關係
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase