開源MaskFormer-Swin-Small-Coco模型 - 用於全景分割任務的實用之選

首頁

Maskformer Swin Small Coco

由facebook開發

基於Swin骨幹網絡的小型MaskFormer模型，在COCO數據集上訓練，用於全景分割任務。

圖像分割

Transformers

開源協議:其他 #全景分割 #Swin骨幹網絡 #統一分割範式

下載量 2,293

發布時間 : 3/2/2022

模型概述

MaskFormer採用統一範式處理實例分割、語義分割和全景分割任務，通過預測一組掩碼及對應標籤實現。

模型特點

統一分割範式

將實例分割、語義分割和全景分割統一為實例分割問題處理

Swin骨幹網絡

採用高效的Swin Transformer作為骨幹網絡

COCO數據集訓練

在標準COCO數據集上訓練，具有良好的泛化能力

模型能力

圖像分割

語義分割

實例分割

全景分割

使用案例

計算機視覺

物體識別與分割

識別圖像中的物體並生成精確的像素級分割掩碼

在COCO數據集上表現良好

場景理解

對複雜場景進行全面的語義和實例分析

🚀 MaskFormer

MaskFormer是一個在COCO全景分割任務上訓練的模型（小尺寸版本，採用Swin骨幹網絡）。它能以相同的範式處理實例分割、語義分割和全景分割任務，為相關領域的圖像分割工作提供了高效的解決方案。

🚀 快速開始

MaskFormer模型在COCO全景分割任務上進行了訓練（小尺寸版本，採用Swin骨幹網絡）。它首次在論文Per-Pixel Classification is Not All You Need for Semantic Segmentation中被提出，並在此倉庫中首次發佈。

需要說明的是，發佈MaskFormer的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

統一範式處理多任務

MaskFormer採用相同的範式來處理實例分割、語義分割和全景分割任務，即通過預測一組掩碼和相應的標籤，將這3種任務都視為實例分割任務進行處理。

架構展示

模型架構圖

📚 詳細文檔

預期用途和限制

你可以使用此特定的檢查點進行語義分割任務。若想查找針對其他感興趣任務的微調版本模型，可查看模型中心。

使用方法

以下是使用此模型的示例代碼：

from transformers import MaskFormerFeatureExtractor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

# 加載在COCO全景分割任務上微調的MaskFormer模型
feature_extractor = MaskFormerFeatureExtractor.from_pretrained("facebook/maskformer-swin-small-coco")
model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-small-coco")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
# 模型預測的class_queries_logits形狀為 `(batch_size, num_queries)`
# 模型預測的masks_queries_logits形狀為 `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# 你可以將它們傳遞給feature_extractor進行後處理
result = feature_extractor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# 關於可視化操作，可參考演示筆記本（見MaskFormer文檔的“資源”部分）
predicted_panoptic_map = result["segmentation"]