オープンソースのMask2Former画像分割モデル - インスタンス、セマンティック、パノラマ分割タスクを片付ける

Mask2former Swin Base IN21k Ade Semantic

facebookによって開発

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理できる汎用画像セグメンテーションモデルで、一連のマスクとそれに対応するラベルを予測することで実現します。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マスクアテンションTransformer #マルチスケール変形可能アテンション

ダウンロード数 879

リリース時間 : 1/5/2023

モデル概要

このモデルはSwinバックボーンネットワークを採用し、ADE20kデータセットでセマンティックセグメンテーションタスクのファインチューニングを行い、改良されたTransformerアーキテクチャにより効率的で正確なセグメンテーション能力を提供します。

モデル特徴

統一セグメンテーションアーキテクチャ

単一のモデルアーキテクチャでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションの3つのタスクを処理

改良されたTransformer設計

マルチスケール変形可能アテンションTransformerとマスクアテンション付きTransformerデコーダーを採用し、性能と効率を向上

効率的なトレーニング方法

マスク全体ではなくサンプルポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セマンティックセグメンテーション

画像インスタンスセグメンテーション

画像パノプティックセグメンテーション

マルチスケール画像解析

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の異なるオブジェクトを識別・分割

シーン内の様々な物体を正確に識別・分割

自動運転

道路シーン分析、車両、歩行者、道路標識などの識別

自動運転システムに正確な環境認識を提供

医療画像

医療画像分析

医療画像内の臓器や病変領域の分割

医師の診断と治療計画を支援

🚀 Mask2Former

Mask2Formerは、ADE20kのセマンティックセグメンテーションで学習されたモデルです（base - IN21kバージョン、Swinバックボーン）。このモデルは論文 Masked - attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このREADMEでは、Mask2Formerモデルの概要、使用目的、制限事項、使用方法などについて説明します。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。
以前の最先端技術である MaskFormer を性能と効率の両面で上回っています。具体的には、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える、(ii) マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入せずに性能を向上させる、(iii) 損失をマスク全体ではなくサブサンプリングされた点で計算することで学習効率を向上させる、といった手法を用いています。

model image

📚 ドキュメント

想定される使用目的と制限事項

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。関心のあるタスクで微調整された他のバージョンを探すには、モデルハブを参照してください。

使用方法

このモデルの使用方法は次の通りです。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on ADE20k semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-base-IN21k-ade-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-base-IN21k-ade-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)