mask2former-swin-large-mapillary-vistas-panopticオープンソースモデル - パノラマセグメンテーションタスクに適した実用ツール

ホーム

Mask2former Swin Large Mapillary Vistas Panoptic

facebookによって開発

Swinバックボーンネットワークに基づくMask2Formerの大規模バージョンで、パノプティックセグメンテーションタスク向けに設計され、Mapillary Vistasデータセットでトレーニング

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統一フレームワーク #Swinバックボーンネットワーク

ダウンロード数 2,750

リリース時間 : 1/5/2023

モデル概要

Mask2Formerは統一された画像セグメンテーションフレームワークで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理します。前世代モデルのMaskFormerと比較して、性能と効率の両方で大幅な向上が見られます。

モデル特徴

統一セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一して処理

マルチスケール変形可能アテンション

マルチスケール変形可能アテンショントランスフォーマーを使用してピクセルデコーダーをアップグレードし、性能を向上

マスクアテンションメカニズム

マスクアテンションメカニズムを導入したトランスフォーマーデコーダーで、計算量を増やすことなく性能を向上

効率的なトレーニング

サブサンプリングポイントを使用して損失値を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セグメンテーション

パノプティックセグメンテーション

インスタンスセグメンテーション

セマンティックセグメンテーション

使用事例

コンピュータビジョン

ストリートビュー理解

Mapillary Vistasなどのストリートビューデータセットのパノプティックセグメンテーションに使用

ストリートビュー内のさまざまなオブジェクトを正確に識別およびセグメント化可能

オブジェクト認識とセグメンテーション

画像内のオブジェクトを識別し、正確なマスクを生成

例示されている猫や城の認識など

🚀 Mask2Former

Mask2Formerは、Mapillary Vistasのパノプティックセグメンテーションで学習されたモデルです（大規模版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、Mapillary Vistasのパノプティックセグメンテーションで微調整されたMask2Formerを使用しています。以下のコード例を参考に、モデルを使用することができます。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Mapillary Vistas panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]

より詳細なコード例については、ドキュメントを参照してください。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

このモデルは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。その理由は以下の通りです。

（i）ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
（ii）マスク付きアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させる。
（iii）マスク全体ではなくサブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させる。

model image

📚 ドキュメント

使用目的と制限

この特定のチェックポイントは、パノプティックセグメンテーションに使用することができます。興味のあるタスクに関する他の微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使い方は以下の通りです。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Mapillary Vistas panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-mapillary-vistas-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]