Mask2Former開源圖像分割模型 - 免費部署處理實例、語義和全景分割任務

首頁

Mask2former Swin Tiny Ade Semantic

由facebook開發

Mask2Former 是一種基於 Transformer 的統一圖像分割模型，能夠處理實例分割、語義分割和全景分割任務。

圖像分割

Transformers

開源協議:其他 #統一圖像分割 #掩碼注意力機制 #多尺度可變形注意力

下載量 7,834

發布時間 : 1/5/2023

模型概述

Mask2Former 採用統一範式解決多種圖像分割任務，通過預測一組掩碼及其對應標籤來實現。相比前代模型 MaskFormer，它在性能和效率上均有提升。

模型特點

統一分割範式

將實例分割、語義分割和全景分割統一為實例分割處理方式

高效注意力機制

採用多尺度可變形注意力 Transformer 替換傳統像素解碼器

掩碼注意力解碼器

使用帶掩碼注意力的 Transformer 解碼器提升性能而不增加計算量

高效訓練方法

通過基於採樣點而非完整掩碼計算損失來提升訓練效率

模型能力

語義分割

實例分割

全景分割

圖像分析

使用案例

計算機視覺

場景理解

對複雜場景中的物體進行識別和分割

可準確識別和分割 ADE20k 數據集中的 150 個語義類別

自動駕駛

道路場景中的物體檢測和分割

🚀 Mask2Former

Mask2Former是一個用於圖像分割的模型，它能夠以相同的範式處理實例分割、語義分割和全景分割任務，為圖像分割領域帶來了高效且強大的解決方案。

🚀 快速開始

你可以使用這個特定的檢查點進行全景分割。若想尋找針對其他感興趣任務的微調版本，請查看模型中心。

✨ 主要特性

統一範式：Mask2Former使用相同的範式來處理實例分割、語義分割和全景分割，將這三個任務都視為實例分割任務。
性能卓越：相比之前的SOTA模型MaskFormer，Mask2Former在性能和效率上都更勝一籌。具體改進包括：用更先進的多尺度可變形注意力Transformer取代像素解碼器；採用帶掩碼注意力的Transformer解碼器，在不增加額外計算量的情況下提升性能；通過在子採樣點而不是整個掩碼上計算損失來提高訓練效率。

📚 詳細文檔

模型描述

Mask2Former通過預測一組掩碼和相應的標籤，以相同的範式處理實例分割、語義分割和全景分割。因此，所有這三個任務都被視為實例分割。與之前的SOTA模型MaskFormer相比，Mask2Former在性能和效率上都更勝一籌，具體改進如下：

用更先進的多尺度可變形注意力Transformer取代像素解碼器。
採用帶掩碼注意力的Transformer解碼器，在不引入額外計算的情況下提升性能。
通過在子採樣點而不是整個掩碼上計算損失來提高訓練效率。

模型圖片

預期用途和限制

你可以使用這個特定的檢查點進行全景分割。若想尋找針對其他感興趣任務的微調版本，請查看模型中心。

如何使用

以下是如何使用此模型的示例代碼：

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on ADE20k semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-tiny-ade-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-tiny-ade-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)