maskformer-swin-large-ade開源分割模型 - 免費部署實現多類型圖像分割任務

首頁

Maskformer Swin Large Ade

由facebook開發

基於ADE20k數據集訓練的語義分割模型，採用統一框架處理實例分割、語義分割和全景分割任務

圖像分割

Transformers

開源協議:其他 #語義分割統一框架 #Swin骨幹網絡 #ADE20k大尺寸訓練

下載量 4,708

發布時間 : 3/2/2022

模型概述

MaskFormer通過預測一組掩碼及其對應標籤，將各類分割任務統一視為實例分割問題處理。本檢查點專門用於語義分割任務。

模型特點

統一分割框架

將實例分割、語義分割和全景分割統一為實例分割問題處理

Swin骨幹網絡

採用Swin Transformer作為骨幹網絡，提升特徵提取能力

掩碼預測機制

通過預測一組二進制掩碼及其對應類別實現分割任務

模型能力

圖像語義分割

場景理解

物體邊界識別

使用案例

場景解析

房屋場景分割

對住宅場景中的建築、植被、道路等元素進行語義分割

生成像素級語義標籤圖

城市場景分析

識別城市景觀中的各類人造和自然元素

輸出結構化場景理解結果

地理信息系統

航拍圖像分析

處理航拍或衛星圖像中的地表覆蓋分類

生成土地利用分類圖

🚀 MaskFormer

MaskFormer是一個在ADE20k語義分割數據集上訓練的模型（大型版本，採用Swin骨幹網絡）。該模型解決了實例、語義和全景分割問題，為圖像分割領域提供了高效的解決方案。

🚀 快速開始

你可以使用此特定檢查點進行語義分割。若想尋找針對其他感興趣任務的微調版本，可查看模型中心。

from transformers import MaskFormerImageProcessor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = MaskFormerImageProcessor.from_pretrained("facebook/maskformer-swin-large-ade")
inputs = processor(images=image, return_tensors="pt")

model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-large-ade")
outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

更多代碼示例請參考文檔。

✨ 主要特性

MaskFormer通過預測一組掩碼和相應的標籤，以相同的範式處理實例、語義和全景分割問題。因此，所有這3個任務都被視為實例分割任務。

模型架構

💻 使用示例

基礎用法

from transformers import MaskFormerImageProcessor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = MaskFormerImageProcessor.from_pretrained("facebook/maskformer-swin-large-ade")
inputs = processor(images=image, return_tensors="pt")

model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-large-ade")
outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]