オープンソースのMask2Former-Swin-Tinyモデル - 都市景観のパノラマセグメンテーションタスクの最適化に役立つ選択肢

ホーム

Mask2former Swin Tiny Cityscapes Panoptic

facebookによって開発

Swin-Tinyバックボーンネットワークを基にしたMask2Formerモデル、都市景観パノプティックセグメンテーションタスク向けに最適化

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統合アーキテクチャ #マスクアテンションメカニズム

ダウンロード数 2,126

リリース時間 : 1/3/2023

モデル概要

Mask2Formerは汎用画像セグメンテーションモデルで、マスクと対応するラベルを予測することでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを統一的に処理します。このバージョンはCityscapesデータセットのパノプティックセグメンテーションタスク向けにファインチューニングされています。

モデル特徴

統合セグメンテーションアーキテクチャ

単一モデルアーキテクチャでインスタンス/セマンティック/パノプティックセグメンテーションの3大タスクを処理

効率的なアテンションメカニズム

マスクアテンションメカニズムを導入し、計算負荷を増やさずに性能向上

マルチスケール特徴処理

マルチスケール変形可能アテンションTransformerにより異なるスケールの特徴を効果的に捕捉

モデル能力

画像セグメンテーション

パノプティックセグメンテーション

セマンティックセグメンテーション

インスタンスセグメンテーション

使用事例

自動運転

街路景観理解

道路シーン内の様々な物体や領域を識別

車両、歩行者、道路などの要素を正確にセグメント化可能

都市管理

インフラ分析

都市インフラを自動識別・分類

建物、緑地帯、歩道などの領域を区別可能

🚀 Mask2Former

Mask2Formerは、Cityscapesのパノプティックセグメンテーションで学習されたモデルです（tinyサイズ版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクすべてをインスタンスセグメンテーションとして扱います。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。これは以下の3つの点により実現されています。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させる。
マスク全体ではなくサブサンプリングされた点で損失を計算することで、トレーニング効率を向上させる。

モデル画像

想定される用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。他のタスクに関心がある場合は、モデルハブで他のファインチューニングされたバージョンを探すことができます。

📦 インストール

このモデルを使用するには、以下のライブラリが必要です。

requests
torch
Pillow
transformers

pip を使用してインストールできます。

pip install requests torch Pillow transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Cityscapes panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-tiny-cityscapes-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-tiny-cityscapes-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]

もっと多くのコード例については、ドキュメントを参照してください。

📄 ライセンス

ライセンスは other です。

属性	詳情
モデルタイプ	Mask2Formerモデル（Cityscapesパノプティックセグメンテーションで学習、tinyサイズ版、Swinバックボーン）
トレーニングデータ	coco