mask2former-swin-base-ade-semanticオープンソース画像分割モデル - 一般的な処理でインスタンスセマンティックおよびパノラマセグメンテーションタスクを行う

ホーム

Mask2former Swin Base Ade Semantic

facebookによって開発

ADE20kデータセットでトレーニングされた汎用画像セグメンテーションモデル。統一フレームワークでインスタンス/セマンティック/パノプティックセグメンテーションタスクを処理

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #パノプティックセグメンテーション

ダウンロード数 2,811

リリース時間 : 1/5/2023

モデル概要

Mask2FormerはTransformerベースの汎用画像セグメンテーションモデルで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを統一して処理します。前世代モデルのMaskFormerと比べて、性能と効率の両面で大幅な向上を実現しています。

モデル特徴

統一セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一処理

効率的なアテンションメカニズム

従来のピクセルデコーダーの代わりにマルチスケール変形可能アテンションTransformerを採用

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを導入し、計算量を増やさずに性能向上

効率的なトレーニング戦略

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

インスタンスセグメンテーション

セマンティックセグメンテーション

パノプティックセグメンテーション

マルチスケール画像解析

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の物体を正確にセグメンテーションして分類

ADE20kデータセットの150クラスのセマンティックラベルを識別可能

自動運転

道路シーンのリアルタイムセマンティックセグメンテーション

🚀 Mask2Former

Mask2Formerは、ADE20kのセマンティックセグメンテーションで学習されたモデル（ベースサイズ版、Swinバックボーン）です。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することです。このため、3つのタスクはすべてインスタンスセグメンテーションとして扱われます。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。

✨ 主な機能

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えることで、性能と効率を向上させます。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入せずに性能を向上させます。
サブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させます。

モデル画像

📚 ドキュメント

想定される用途と制限

この特定のチェックポイントはパノプティックセグメンテーションに使用できます。他のタスクに微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使い方は以下の通りです。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on ADE20k semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-base-ade-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-base-ade-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)