オープンソースのmask2former - swin - largeモデル - 画像のインスタンス分割、セマンティック分割、パノラマ分割を一元的に処理

Mask2former Swin Large Mapillary Vistas Semantic

facebookによって開発

Swinバックボーンネットワークに基づく大規模Mask2Formerモデルで、汎用画像セグメンテーションタスク向けに設計されており、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを統一的に処理します。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統合フレームワーク #Swinバックボーンネットワーク

ダウンロード数 5,539

リリース時間 : 1/5/2023

モデル概要

Mask2Formerは先進的な画像セグメンテーションモデルで、一連のマスクとそれに対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的に解決します。前世代のモデルと比較して、性能と効率の両面で顕著な向上が見られます。

モデル特徴

統合セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをマスク予測問題として統合し、タスク処理フローを簡素化しました。

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerを従来のピクセルデコーダーに代わり採用し、計算効率を向上させました。

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを導入し、計算量を増やすことなく性能を向上させました。

効率的なトレーニング戦略

完全なマスクではなくサンプルポイントに基づいて損失を計算することで、トレーニング効率を大幅に向上させました。

モデル能力

セマンティックセグメンテーション

インスタンスセグメンテーション

パノプティックセグメンテーション

画像理解

シーン解析

使用事例

自動運転

道路シーン理解

道路シーン内の様々な要素（車両、歩行者、交通標識など）を識別・セグメンテーション

正確なシーン要素のセグメンテーション結果を提供し、自動運転の意思決定をサポート

リモートセンシング画像分析

地物分類

衛星または航空画像内の異なる地物タイプをセグメンテーション・分類

各種地物を正確に識別・セグメンテーションし、土地利用分析をサポート

医療画像

臓器セグメンテーション

医療画像内の特定臓器または病変領域をセグメンテーション

正確な臓器境界識別を提供し、診断と治療を支援

🚀 Mask2Former

Mask2Formerは、Mapillary Vistasのセマンティックセグメンテーションで学習されたモデルです（大規模版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを同じパラダイムで扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

✨ 主な機能

以前のSOTAである MaskFormer を性能と効率の両面で上回っています。
ピクセルデコーダをより高度なマルチスケール変形注意Transformerに置き換えることで性能を向上させています。
マスクされた注意を持つTransformerデコーダを採用し、追加の計算を行わずに性能を向上させています。
サブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させています。

モデル画像

📚 ドキュメント

想定される用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。他のタスクにファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は次の通りです。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Mapillary Vistas semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)