Mask2Formerオープンソース画像分割モデル - 無料でデプロイ可能、Cityscapesのインスタンス分割タスクを高精度で達成

ホーム

Mask2former Swin Tiny Cityscapes Instance

facebookによって開発

Mask2FormerはTransformerアーキテクチャに基づく汎用画像セグメンテーションモデルで、このバージョンはCityscapesデータセット向けにインスタンスセグメンテーションタスクでファインチューニングされています

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #インスタンスセグメンテーション #マルチスケールアテンション #Swinバックボーンネットワーク

ダウンロード数 67

リリース時間 : 1/5/2023

モデル概要

このモデルは画像セグメンテーションタスクを統一的なパラダイムで処理し、一連のマスクと対応するラベルを予測することでインスタンスセグメンテーションを実現します。前世代のモデルと比較して性能と効率の両方が向上しています

モデル特徴

統一セグメンテーションアーキテクチャ

インスタンスセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションのタスクを統一的なパラダイムで処理し、これら3つのタスクをすべてインスタンスセグメンテーションとして扱います

効率的なアテンション機構

従来のピクセルデコーダーをマルチスケール変形可能アテンションTransformerに置き換えることで、計算効率を向上させます

マスクアテンションデコーダー

マスクアテンションを備えたTransformerデコーダーを採用し、計算量を増やすことなく性能を向上させます

効率的なトレーニング戦略

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上させます

モデル能力

画像インスタンスセグメンテーション

マルチオブジェクト検出とセグメンテーション

シーン理解

使用事例

自動運転

道路シーン分析

道路上の車両、歩行者、交通標識などの要素を識別・セグメンテーション

高精度な環境認識システムの構築に利用可能

都市管理

都市インフラ監視

建物、道路、緑地帯などの都市要素を自動識別・セグメンテーション

都市計画や管理意思決定を支援

🚀 Mask2Former

Mask2Formerは、Cityscapesのインスタンスセグメンテーションで学習されたモデルです（tinyサイズ版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、すべての3つのタスクをインスタンスセグメンテーションとして扱います。Mask2Formerは、以前のSOTAである MaskFormer を、以下の点で性能と効率の両面で上回っています。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入せずに性能を向上させる。
損失をマスク全体ではなくサブサンプリングされたポイントで計算することで、トレーニング効率を向上させる。

モデル画像

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他のタスクに関心がある場合は、モデルハブで他のファインチューニングされたバージョンを探すことができます。

📦 インストール

このモデルの使用に必要な依存関係は、コード例内で自動的に読み込まれます。ただし、transformers、torch、requests、Pillow などのライブラリが事前にインストールされている必要があります。以下のコマンドでインストールできます。

pip install transformers torch requests pillow

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on Cityscapes instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-tiny-cityscapes-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-tiny-cityscapes-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]