開源mask2former-swin-large模型 - 統一處理圖像實例、語義和全景分割

Home

Mask2former Swin Large Mapillary Vistas Semantic

Developed by facebook

基於Swin骨幹網絡的大規模Mask2Former模型，專為通用圖像分割任務設計，統一處理實例分割、語義分割和全景分割。

圖像分割

Transformers

Open Source License:Other #全景分割 #多任務統一框架 #Swin骨幹網絡

Downloads 5,539

Release Time : 1/5/2023

Model Overview

Mask2Former是一種先進的圖像分割模型，通過預測一組掩碼及其對應標籤，以統一方式解決實例分割、語義分割和全景分割任務。相比前代模型，它在性能和效率上均有顯著提升。

Model Features

統一分割框架

將實例分割、語義分割和全景分割統一為掩碼預測問題，簡化了任務處理流程。

高效注意力機制

採用多尺度可變形注意力Transformer替代傳統像素解碼器，提高了計算效率。

掩碼注意力解碼器

引入帶掩碼注意力的Transformer解碼器，在不增加計算量的情況下提升性能。

高效訓練策略

通過基於採樣點而非完整掩碼計算損失，顯著提高了訓練效率。

Model Capabilities

語義分割

實例分割

全景分割

圖像理解

場景解析

Use Cases

自動駕駛

道路場景理解

識別和分割道路場景中的各種元素（車輛、行人、交通標誌等）

提供精確的場景元素分割結果，支持自動駕駛決策

遙感圖像分析

地物分類

對衛星或航拍圖像中的不同地物類型進行分割和分類

準確識別和分割各類地物，支持土地利用分析

醫學影像

器官分割

在醫學影像中分割特定器官或病變區域

提供精確的器官邊界識別，輔助診斷和治療

🚀 Mask2Former

Mask2Former是一個用於圖像分割的模型，它可以以相同的範式處理實例、語義和全景分割任務，通過預測一組掩碼和相應的標籤來完成。該模型在性能和效率上都有出色表現。

🚀 快速開始

本模型可用於全景分割任務。你可以在模型中心查找其他針對你感興趣任務的微調版本。

以下是使用該模型的示例代碼：

基礎用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Mapillary Vistas semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)

更多代碼示例請參考文檔。

✨ 主要特性

統一範式：Mask2Former以相同的範式處理實例、語義和全景分割任務，將這3種任務都視為實例分割。
性能優越：相比之前的SOTA模型MaskFormer，在性能和效率上都更勝一籌。具體通過以下方式實現：
- 用更先進的多尺度可變形注意力Transformer替換像素解碼器。
- 採用帶有掩碼注意力的Transformer解碼器，在不引入額外計算的情況下提升性能。
- 通過在子採樣點上計算損失而不是在整個掩碼上計算，提高訓練效率。

模型架構圖

📚 詳細文檔

模型描述

Mask2Former在論文Masked-attention Mask Transformer for Universal Image Segmentation中被提出，並首次在此倉庫發佈。它基於在Mapillary Vistas語義分割數據集上進行訓練（大尺寸版本，Swin骨幹網絡）。

免責聲明

發佈Mask2Former的團隊並未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

預期用途和限制

你可以使用此特定的檢查點進行全景分割。若要查找針對其他感興趣任務的微調版本，請查看模型中心。

📄 許可證

其他

📦 數據集和示例

數據集

該模型使用了COCO數據集進行訓練。

示例

以下是一些示例圖片：

Cats
Castle

📋 信息表格

屬性	詳情
模型類型	用於圖像分割的Mask2Former模型
訓練數據	COCO、Mapillary Vistas語義分割數據集
適用任務	實例分割、語義分割、全景分割