🚀 Mask2Former
Mask2Former 是一個在 COCO 全景分割任務上訓練的模型(小尺寸版本,採用 Swin 骨幹網絡)。它由論文 Masked-attention Mask Transformer for Universal Image Segmentation 提出,並首次在 此倉庫 中發佈。該模型可用於圖像分割領域,為圖像分割任務提供了高效且準確的解決方案。
🚀 快速開始
Mask2Former 模型可直接用於全景分割任務。若你對其他微調版本感興趣,可查看 模型中心。
以下是使用此模型的示例代碼:
import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-small-coco-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-small-coco-panoptic")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
predicted_panoptic_map = result["segmentation"]
更多代碼示例可參考 文檔。
✨ 主要特性
Mask2Former 採用相同的範式處理實例分割、語義分割和全景分割任務,即通過預測一組掩碼和相應的標籤來完成。因此,這三個任務都被視為實例分割任務。與之前的最優模型 MaskFormer 相比,Mask2Former 在性能和效率上都更勝一籌,主要體現在以下幾個方面:
- 用更先進的多尺度可變形注意力 Transformer 取代像素解碼器;
- 採用帶有掩碼注意力的 Transformer 解碼器,在不增加額外計算量的情況下提升性能;
- 通過在子採樣點上計算損失而非整個掩碼,提高訓練效率。

📚 詳細文檔
模型描述
Mask2Former 以統一的方式處理實例、語義和全景分割任務,通過預測一組掩碼和對應的標籤來完成。它將這三個任務都當作實例分割任務處理。與之前的 SOTA 模型 MaskFormer 相比,Mask2Former 在性能和效率上都有顯著提升,具體改進如下:
- 用更先進的多尺度可變形注意力 Transformer 替換像素解碼器;
- 採用帶有掩碼注意力的 Transformer 解碼器,在不增加額外計算的情況下提升性能;
- 通過在子採樣點上計算損失而非整個掩碼,提高訓練效率。
預期用途和限制
此特定檢查點可用於全景分割任務。若你對其他微調版本感興趣,可查看 模型中心。
📄 許可證
本模型使用其他許可證。
信息表格
免責聲明
發佈 Mask2Former 的團隊並未為此模型編寫模型卡片,此模型卡片由 Hugging Face 團隊編寫。