開源圖像實例分割模型：Mask2Former精準識別並分割圖像中不同對象實例

首頁

Finetune Instance Segmentation Ade20k Mini Mask2former No Trainer

由qubvel-hf開發

這是一個在ADE20K-mini數據集上微調的Mask2Former實例分割模型，能夠識別和分割圖像中的不同對象實例。

圖像分割

Transformers

#實例分割 #小尺寸圖像處理 #ADE20K數據集

下載量 24

發布時間 : 5/26/2024

模型概述

該模型基於Facebook的Mask2Former架構，專門用於實例分割任務，能夠在圖像中識別並分割出不同的對象實例。

模型特點

高效的實例分割

能夠準確識別並分割圖像中的多個對象實例

基於Transformer架構

採用Swin Transformer和Mask2Former架構，具有強大的特徵提取能力

小尺寸輸入支持

支持256x256像素的輸入尺寸，適合資源有限的環境

模型能力

圖像分割

對象實例識別

像素級標註

使用案例

計算機視覺

場景理解

分析複雜場景中的各個對象及其位置關係

可輸出每個對象的精確邊界和類別信息

自動駕駛

識別道路場景中的車輛、行人等關鍵對象

為自動駕駛系統提供精確的環境感知

🚀 實例分割示例

本項目提供了一個圖像分割的實例，基於相關模型和腳本實現了實例分割任務的訓練和推理，可在多種環境下運行。

🚀 快速開始

本項目涵蓋了實例分割的訓練和推理過程，下面將詳細介紹具體步驟。

📦 安裝指南

首先，你需要配置環境以確保能夠順利進行訓練。

配置環境

accelerate config

根據提示回答關於訓練環境的問題。

測試環境

accelerate test

此命令用於確保一切準備就緒，可以開始訓練。

啟動訓練

accelerate launch run_instance_segmentation_no_trainer.py \
    --model_name_or_path facebook/mask2former-swin-tiny-coco-instance \
    --output_dir finetune-instance-segmentation-ade20k-mini-mask2former-no-trainer \
    --dataset_name qubvel-hf/ade20k-mini \
    --do_reduce_labels \
    --image_height 256 \
    --image_width 256 \
    --num_train_epochs 40 \
    --learning_rate 1e-5 \
    --lr_scheduler_type constant \
    --per_device_train_batch_size 8 \
    --gradient_accumulation_steps 2 \
    --dataloader_num_workers 8 \
    --push_to_hub

💻 使用示例

基礎用法

以下代碼展示瞭如何加載訓練好的模型並進行推理：

import torch
import requests
import matplotlib.pyplot as plt

from PIL import Image
from transformers import Mask2FormerForUniversalSegmentation, Mask2FormerImageProcessor

# 加載圖像
image = Image.open(requests.get("http://farm4.staticflickr.com/3017/3071497290_31f0393363_z.jpg", stream=True).raw)

# 加載模型和圖像處理器
device = "cuda"
checkpoint = "qubvel-hf/finetune-instance-segmentation-ade20k-mini-mask2former-no-trainer"

model = Mask2FormerForUniversalSegmentation.from_pretrained(checkpoint, device_map=device)
image_processor = Mask2FormerImageProcessor.from_pretrained(checkpoint)

# 在圖像上運行推理
inputs = image_processor(images=[image], return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)

# 後處理輸出
outputs = image_processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])

print("Mask shape: ", outputs[0]["segmentation"].shape)
print("Mask values: ", outputs[0]["segmentation"].unique())
for segment in outputs[0]["segments_info"]:
    print("Segment: ", segment)

運行上述代碼後，你將看到如下輸出：

Mask shape:  torch.Size([427, 640])
Mask values:  tensor([-1.,  0.,  1.,  2.,  3.,  4.,  5.,  6.])
Segment:  {'id': 0, 'label_id': 0, 'was_fused': False, 'score': 0.946127}
Segment:  {'id': 1, 'label_id': 1, 'was_fused': False, 'score': 0.961582}
Segment:  {'id': 2, 'label_id': 1, 'was_fused': False, 'score': 0.968367}
Segment:  {'id': 3, 'label_id': 1, 'was_fused': False, 'score': 0.819527}
Segment:  {'id': 4, 'label_id': 1, 'was_fused': False, 'score': 0.655761}
Segment:  {'id': 5, 'label_id': 1, 'was_fused': False, 'score': 0.531299}
Segment:  {'id': 6, 'label_id': 1, 'was_fused': False, 'score': 0.929477}

高級用法

使用以下代碼可視化推理結果：

import numpy as np
import matplotlib.pyplot as plt

segmentation = outputs[0]["segmentation"].numpy()

plt.figure(figsize=(10, 10))
plt.subplot(1, 2, 1)
plt.imshow(np.array(image))
plt.axis("off")
plt.subplot(1, 2, 2)
plt.imshow(segmentation)
plt.axis("off")
plt.show()