mask2former-swin-small-ade-semanticオープンソースモデル - 画像分割タスクを統一的に扱う、小サイズで超実用的

Home

Mask2former Swin Small Ade Semantic

Developed by facebook

Swinバックボーンネットワークに基づくADE20kセマンティックセグメンテーション用の小型Mask2Formerモデル、統一パラダイムで画像セグメンテーションタスクを処理

画像セグメンテーション

Transformers

Open Source License:Other #統一画像セグメンテーション #マルチスケールアテンション #マスク予測

Downloads 3,265

Release Time : 1/5/2023

Model Overview

Mask2Formerは先進的な画像セグメンテーションモデルで、一連のマスクと対応するラベルを予測することでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理します。このモデルは性能と効率の面で前世代から大幅に改善されています。

Model Features

統一セグメンテーションパラダイム

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションとして統一して処理し、タスクフローを簡素化

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerとマスクアテンションメカニズムを採用し、計算量を増やさずに性能を向上

効率的なトレーニング方法

マスク全体ではなくサブサンプリング点で損失を計算することで、トレーニング効率を大幅に向上

Model Capabilities

画像セマンティックセグメンテーション

インスタンスセグメンテーション

パノプティックセグメンテーション

Use Cases

コンピュータビジョン

シーン理解

複雑なシーン内の物体を正確にセグメンテーションし分類

ADE20kデータセットの150クラスの物体を正確に識別・セグメンテーション可能

自動運転

道路シーン解析、車両、歩行者、道路などの要素を識別

🚀 Mask2Former

Mask2Formerは、ADE20kのセマンティックセグメンテーションで学習されたモデルです（小型版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、Mask2Formerモデルの概要と使用方法を説明します。

✨ 主な機能

セグメンテーションタスクの統合

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションの3つのタスクを同じパラダイムで扱います。具体的には、一連のマスクと対応するラベルを予測することで、すべてのタスクをインスタンスセグメンテーションとして扱います。

性能と効率の向上

Mask2Formerは、以前の最先端技術である MaskFormer を性能と効率の両面で上回っています。そのために以下の3つの手法を用いています。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させる。
損失をマスク全体ではなくサブサンプリングされたポイントで計算することで、学習効率を向上させる。

モデル構造の視覚化

model image

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on ADE20k semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-small-ade-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-small-ade-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)