🚀 Mask2Former
Mask2Former是一個用於圖像分割的模型,它採用統一的範式處理實例、語義和全景分割任務,在性能和效率上表現出色。
✨ 主要特性
- 統一範式:通過預測一組掩碼和相應的標籤,以相同的方式處理實例、語義和全景分割任務。
- 性能優越:在性能和效率方面超越了之前的SOTA模型MaskFormer。
- 技術創新:採用更先進的多尺度可變形注意力Transformer替換像素解碼器,使用帶掩碼注意力的Transformer解碼器提升性能,通過在子採樣點上計算損失提高訓練效率。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
predicted_panoptic_map = result["segmentation"]
高級用法
如需更多代碼示例,請參考文檔。
📚 詳細文檔
模型描述
Mask2Former採用統一的範式處理實例、語義和全景分割任務,通過預測一組掩碼和相應的標籤,將這3個任務都視為實例分割任務。它在性能和效率上超越了之前的SOTA模型MaskFormer,主要通過以下方式實現:
- 用更先進的多尺度可變形注意力Transformer替換像素解碼器。
- 採用帶掩碼注意力的Transformer解碼器提升性能,且不引入額外的計算。
- 通過在子採樣點上計算損失而不是在整個掩碼上計算,提高訓練效率。

預期用途和限制
你可以使用這個特定的檢查點進行全景分割任務。你可以在模型中心查找針對你感興趣的任務進行微調的其他版本。
免責聲明
發佈Mask2Former的團隊沒有為該模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
🔧 技術細節
Mask2Former在處理實例、語義和全景分割任務時,採用了統一的預測掩碼和標籤的範式。它通過以下技術改進超越了之前的SOTA模型:
- 多尺度可變形注意力Transformer:替換了傳統的像素解碼器,能夠更好地捕捉不同尺度的特徵。
- 帶掩碼注意力的Transformer解碼器:在不增加額外計算的情況下,提升了模型的性能。
- 子採樣點損失計算:通過在子採樣點上計算損失,提高了訓練效率。
📄 許可證
許可證類型:other
數據集
該模型在COCO數據集上進行訓練。
示例
論文引用
該模型在論文 Masked-attention Mask Transformer for Universal Image Segmentation 中被提出,並首次在 此倉庫 中發佈。