mask2former-swin-small-cityscapes-panopticオープンソースモデル - Cityscapes全景セグメンテーションタスクの最適化を支援

ホーム

Mask2former Swin Small Cityscapes Panoptic

facebookによって開発

Swinバックボーンネットワークを基にした小型Mask2Formerモデル、Cityscapesデータセットのパノプティックセグメンテーションタスク向けに最適化

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統合フレームワーク #Swinバックボーンネットワーク

ダウンロード数 568

リリース時間 : 1/3/2023

モデル概要

Mask2Formerは汎用画像セグメンテーションフレームワークで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを統一的に処理します。この特定のチェックポイントは都市景観のパノプティックセグメンテーション向けにファインチューニングされています。

モデル特徴

統合セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをマスク予測タスクとして統合し、処理フローを簡素化

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerを採用し、従来のピクセルデコーダーを置き換えることで計算効率を向上

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを革新的に導入し、計算量を増やさずに性能を向上

効率的なトレーニング戦略

マスク全体ではなくサブサンプリング点で損失を計算することで、トレーニング時の計算リソース消費を大幅に削減

モデル能力

画像セグメンテーション

街景理解

物体認識と位置特定

パノプティックセグメンテーション

使用事例

インテリジェント交通システム

街景要素分析

都市道路の車両、歩行者、交通標識などを正確にセグメンテーションし分類

交通流量監視や都市計画に活用可能

自動運転

環境認識

道路シーン内の各種物体をリアルタイムで識別・セグメンテーション

自動運転システムに正確な環境理解を提供

🚀 Mask2Former

Mask2Formerは、Cityscapesのパノプティックセグメンテーションで学習されたモデルです（小型版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、Cityscapesのパノプティックセグメンテーションで学習されたMask2Formerです。以下に使用方法の例を示します。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

このモデルは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。具体的な改善点は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
マスク付きアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させる。
損失をマスク全体ではなくサブサンプリングされた点で計算することで、学習効率を向上させる。

モデル画像

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install requests torch pillow transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on Cityscapes panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-small-cityscapes-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-small-cityscapes-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]

高度な使用法

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定される用途と制限

この特定のチェックポイントは、パノプティックセグメンテーションに使用できます。他のタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

🔧 技術詳細

モデル情報

属性	详情
模型类型	マスク付きアテンションマスクTransformer
训练数据	Cityscapesパノプティックセグメンテーションデータセット