mask2former-swin-large-coco-panoptic开源图像分割模型

首页

Mask2former Swin Large Coco Panoptic

由 facebook 开发

基于Swin骨干网络的Mask2Former大型版本，专为COCO数据集全景分割任务训练的统一图像分割模型

图像分割

Transformers

开源协议:其他 #全景分割 #多任务统一框架 #Swin骨干网络

下载量 37.67k

发布时间 : 1/2/2023

模型简介

Mask2Former是一个统一的图像分割框架，通过预测一组掩码及其对应标签来处理实例分割、语义分割和全景分割任务。相比前代模型MaskFormer，它在性能和效率上均有显著提升。

模型特点

统一分割框架

将实例分割、语义分割和全景分割统一视为掩码预测问题，简化了任务处理流程

多尺度可变形注意力

采用先进的多尺度可变形注意力Transformer替代传统像素解码器，提升特征提取能力

掩码注意力机制

在Transformer解码器中引入掩码注意力，在不增加计算量的前提下显著提升性能

高效训练策略

通过采样点计算损失而非整张掩码，大幅提升训练效率

模型能力

图像分割

实例识别

语义理解

全景场景解析

使用案例

计算机视觉

自动驾驶场景理解

用于识别道路场景中的各种物体及其精确边界

可准确分割车辆、行人、道路标志等元素

医学图像分析

辅助医疗影像中的器官或病变区域分割

提供精确的器官边界划分

遥感图像解析

分析卫星或航拍图像中的地物分布

可识别建筑物、植被、水域等地理要素

🚀 Mask2Former

Mask2Former是一个用于图像分割的模型，它采用统一的范式处理实例、语义和全景分割任务，在性能和效率上表现出色。

✨ 主要特性

统一范式：通过预测一组掩码和相应的标签，以相同的方式处理实例、语义和全景分割任务。
性能优越：在性能和效率方面超越了之前的SOTA模型MaskFormer。
技术创新：采用更先进的多尺度可变形注意力Transformer替换像素解码器，使用带掩码注意力的Transformer解码器提升性能，通过在子采样点上计算损失提高训练效率。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on COCO panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]