Mask2Formerオープンソースインスタンスセグメンテーションモデル - COCOデータセットに基づき、セグメンテーションタスクを統一的に処理！

ホーム

Mask2former Swin Tiny Coco Instance

facebookによって開発

COCOデータセットでトレーニングされたMask2Formerの小型版インスタンスセグメンテーションモデルで、Swinバックボーンネットワークを採用し、セグメンテーションタスクを統一的に処理

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #COCOインスタンスセグメンテーション

ダウンロード数 149.85k

リリース時間 : 12/23/2022

モデル概要

Mask2Formerは汎用的な画像セグメンテーションモデルで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションタスクを処理します。前世代のモデルと比較して、性能と効率の両方で向上しています。

モデル特徴

統一セグメンテーションパラダイム

インスタンスセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一的に処理

効率的なアテンションメカニズム

従来のピクセルデコーダーを置き換えるマルチスケール変形可能アテンションTransformerを採用

マスクアテンションデコーダー

マスクアテンションを備えたTransformerデコーダーを導入し、計算量を増やさずに性能を向上

効率的なトレーニング方法

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セグメンテーション

インスタンス認識

オブジェクトマスク生成

使用事例

コンピュータビジョン

オブジェクト認識とセグメンテーション

画像内のオブジェクトを認識し、正確なピクセルレベルのセグメンテーションマスクを生成

COCOデータセットで高精度なインスタンスセグメンテーションを実現

シーン理解

複雑なシーン内の複数のオブジェクトとそれらの空間的関係を分析

🚀 Mask2Former

Mask2Formerは、COCOインスタンスセグメンテーションで学習されたモデルです（tinyサイズ版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、インスタンス、セマンティック、パノプティックセグメンテーションを同じパラダイムで扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。具体的な改善点は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えました。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させました。
損失をマスク全体ではなくサブサンプリングされた点で計算することで、学習効率を向上させました。

モデル画像

想定される用途と制限

このチェックポイントはインスタンスセグメンテーションに使用できます。他のタスクに対してファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former fine-tuned on COCO instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-tiny-coco-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-tiny-coco-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]