mask2former-swin-base-IN21k-cityscapes-semanticオープンソース画像分割モデル

ホーム

Mask2former Swin Base IN21k Cityscapes Semantic

facebookによって開発

Swin Transformerベースの汎用画像セグメンテーションモデルで、インスタンス/セマンティック/パノプティックセグメンテーションタスクを統一的に処理

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #マスク予測

ダウンロード数 329

リリース時間 : 1/16/2023

モデル概要

Mask2Formerは先進的な画像セグメンテーションモデルで、Transformerアーキテクチャを採用し、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーション機能を統一的に実現します。

モデル特徴

統一セグメンテーションアーキテクチャ

同じモデルアーキテクチャで3種類のセグメンテーションタスク（インスタンス/セマンティック/パノプティック）を処理

マスクアテンションメカニズム

革新的なマスクアテンションTransformerデコーダーで計算量を増やさずに性能向上

効率的なトレーニング戦略

完全なマスク計算の代わりにサンプリングポイントで損失を計算し、トレーニング効率を大幅に向上

マルチスケール特徴処理

変形可能なアテンションメカニズムを採用し、マルチスケール特徴を効果的に捕捉

モデル能力

セマンティックセグメンテーション

インスタンスセグメンテーション

パノプティックセグメンテーション

マルチスケール画像分析

物体認識と位置特定

使用事例

自動運転

街路景観セマンティックセグメンテーション

道路、車両、歩行者などの重要な要素を識別

CityscapesデータセットでSOTA性能を達成

医療画像

臓器セグメンテーション

CT/MRI画像内の臓器組織を精密に分割

リモートセンシング画像

地表被覆分類

衛星画像内の異なる地表タイプを識別

🚀 Mask2Former

Mask2Formerは、Cityscapesのセマンティックセグメンテーションで学習されたモデルです（base - IN21k、Swinバックボーン）。このモデルは論文 Masked - attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することです。したがって、これら3つのタスクはすべてインスタンスセグメンテーションとして扱われます。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。具体的な改善点は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えました。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を行わずに性能を向上させました。
損失をマスク全体ではなくサブサンプリングされたポイントで計算することで、学習効率を向上させました。

モデル画像

想定用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。他のタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install requests torch pillow transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on Cityscapes semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-base-IN21k-cityscapes-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-base-IN21k-cityscapes-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)