maskformer-swin-large-ade开源分割模型 - 免费部署实现多类型图像分割任务

首页

Maskformer Swin Large Ade

由 facebook 开发

基于ADE20k数据集训练的语义分割模型，采用统一框架处理实例分割、语义分割和全景分割任务

图像分割

Transformers

开源协议:其他 #语义分割统一框架 #Swin骨干网络 #ADE20k大尺寸训练

下载量 4,708

发布时间 : 3/2/2022

模型简介

MaskFormer通过预测一组掩码及其对应标签，将各类分割任务统一视为实例分割问题处理。本检查点专门用于语义分割任务。

模型特点

统一分割框架

将实例分割、语义分割和全景分割统一为实例分割问题处理

Swin骨干网络

采用Swin Transformer作为骨干网络，提升特征提取能力

掩码预测机制

通过预测一组二进制掩码及其对应类别实现分割任务

模型能力

图像语义分割

场景理解

物体边界识别

使用案例

场景解析

房屋场景分割

对住宅场景中的建筑、植被、道路等元素进行语义分割

生成像素级语义标签图

城市场景分析

识别城市景观中的各类人造和自然元素

输出结构化场景理解结果

地理信息系统

航拍图像分析

处理航拍或卫星图像中的地表覆盖分类

生成土地利用分类图

🚀 MaskFormer

MaskFormer是一个在ADE20k语义分割数据集上训练的模型（大型版本，采用Swin骨干网络）。该模型解决了实例、语义和全景分割问题，为图像分割领域提供了高效的解决方案。

🚀 快速开始

你可以使用此特定检查点进行语义分割。若想寻找针对其他感兴趣任务的微调版本，可查看模型中心。

from transformers import MaskFormerImageProcessor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = MaskFormerImageProcessor.from_pretrained("facebook/maskformer-swin-large-ade")
inputs = processor(images=image, return_tensors="pt")

model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-large-ade")
outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

更多代码示例请参考文档。

✨ 主要特性

MaskFormer通过预测一组掩码和相应的标签，以相同的范式处理实例、语义和全景分割问题。因此，所有这3个任务都被视为实例分割任务。

模型架构

💻 使用示例

基础用法

from transformers import MaskFormerImageProcessor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = MaskFormerImageProcessor.from_pretrained("facebook/maskformer-swin-large-ade")
inputs = processor(images=image, return_tensors="pt")

model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-large-ade")
outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]