mask2former - swin-large - cityscapes - semanticオープンソースモデル - 多クラス画像分割を処理し、都市景観のセマンティック分割に特化

ホーム

Mask2former Swin Large Cityscapes Semantic

facebookによって開発

Swinバックボーンネットワークを基にした大規模なMask2Formerモデルで、Cityscapesセマンティックセグメンテーションタスク向けにトレーニングされ、統一アーキテクチャで様々な画像セグメンテーションタスクを処理します。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #Swinバックボーンネットワーク #マルチスケールアテンション

ダウンロード数 296.33k

リリース時間 : 1/5/2023

モデル概要

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的に処理できる先進的な画像セグメンテーションモデルです。この特定のバージョンは都市景観のセマンティックセグメンテーション向けに最適化されています。

モデル特徴

統一セグメンテーションアーキテクチャ

一連のマスクとそれに対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的に処理します。

改良されたアテンションメカニズム

マルチスケール変形可能アテンションTransformerとマスクアテンションメカニズムを採用し、計算量を増やすことなく性能を向上させます。

効率的なトレーニング戦略

ダウンサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上させます。

モデル能力

画像セマンティックセグメンテーション

街景画像分析

マルチカテゴリ物体認識

使用事例

インテリジェント交通システム

都市景観解析

道路、車両、歩行者などの都市景観要素を自動的に識別・セグメンテーション

交通流量分析、自動運転の環境認識などのアプリケーションに利用可能

地理情報システム

衛星画像分析

衛星または航空画像に対してセマンティックセグメンテーションを実施

都市計画、土地利用分類などのシナリオに利用可能

🚀 Mask2Former

Mask2Formerは、Cityscapesのセマンティックセグメンテーションに対して学習されたモデルです（大規模版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクすべてをインスタンスセグメンテーションのように扱います。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。その理由は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えました。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させました。
マスク全体ではなくサブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させました。

モデル画像

想定される用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。関心のあるタスクで微調整された他のバージョンを探すには、モデルハブを参照してください。

📦 インストール

このREADMEにはインストール手順に関する具体的な情報がありません。

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Cityscapes semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-cityscapes-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-cityscapes-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)