Mask2Former - Swin - Small - Coco - パノプティックオープンソースモデル - COCOデータセットのパノプティックセグメンテーションタスクに使用

ホーム

Mask2former Swin Small Coco Panoptic

facebookによって開発

Swinバックボーンネットワークに基づくMask2Formerの小規模バージョンで、COCOデータセットのパノプティックセグメンテーションタスクに最適化されています

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統合フレームワーク #Swinバックボーンネットワーク

ダウンロード数 240

リリース時間 : 1/2/2023

モデル概要

Mask2Formerは汎用画像セグメンテーションモデルで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的に処理するフレームワークを採用し、一連のマスクと対応するラベルを予測することで実現します。前世代モデルのMaskFormerと比較して、性能と効率の両面で大幅な向上が見られます。

モデル特徴

統合セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一的に処理します

効率的なアテンションメカニズム

従来のピクセルデコーダーを置き換えるマルチスケール変形可能アテンションTransformerを採用しています

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを導入し、計算量を増やすことなく性能を向上させます

効率的なトレーニング戦略

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上させます

モデル能力

画像セグメンテーション

パノプティックセグメンテーション

インスタンスセグメンテーション

セマンティックセグメンテーション

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の物体をピクセルレベルで識別・分類します

セマンティックラベルを含むセグメンテーションマスクを生成できます

自動運転

道路シーンにおける各種物体の精密なセグメンテーション

自動運転システムが周囲環境を理解するのに役立ちます

🚀 Mask2Former

Mask2Formerは、COCOパノプティックセグメンテーションで学習されたモデル（小型版、Swinバックボーン）です。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、マスクのセットと対応するラベルを予測することで、3つのタスクすべてをインスタンスセグメンテーションのように扱います。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。

✨ 主な機能

同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱うことができます。
ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えることで、性能と効率を向上させています。
マスクされたアテンションを持つTransformerデコーダを採用することで、追加の計算を導入することなく性能を向上させています。
サブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させています。

model image

📚 ドキュメント

モデルの説明

想定される用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。他の微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は次のとおりです。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on COCO panoptic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-small-coco-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-small-coco-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_panoptic_map = result["segmentation"]

より多くのコード例については、ドキュメントを参照してください。

📄 ライセンス

other

属性	详情
モデルタイプ	Mask2Former（COCOパノプティックセグメンテーションで学習された小型版、Swinバックボーン）
トレーニングデータ	COCO