オープンソースのMask2Former-Swin-Large-ADEセマンティックセグメンテーションモデル

ホーム

Mask2former Swin Large Ade Semantic

facebookによって開発

Swinバックボーンネットワークの大規模バージョンに基づき、ADE20kセマンティックセグメンテーションデータセットでトレーニングされたMask2Formerモデル。画像セグメンテーションタスクを統一的なパラダイムで処理します。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #パノプティックセグメンテーション

ダウンロード数 238.92k

リリース時間 : 1/5/2023

モデル概要

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理できる先進的な画像セグメンテーションモデルです。一連のマスクとそれに対応するラベルを予測することで、異なるタイプのセグメンテーションタスクの処理方法を統一しています。

モデル特徴

統一セグメンテーションパラダイム

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一処理

効率的なアテンションメカニズム

従来のピクセルデコーダーを置き換えるマルチスケール変形可能アテンションTransformerを採用

マスクアテンションデコーダー

計算量を増やすことなく性能を向上させるマスクアテンション付きTransformerデコーダーを導入

効率的なトレーニング方法

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セマンティックセグメンテーション

インスタンスセグメンテーション

パノプティックセグメンテーション

マルチスケール特徴抽出

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の物体を正確にセグメンテーションし分類

ADE20kなどの標準データセットでSOTA性能を達成

自動運転

道路シーンにおける様々な物体の識別とセグメンテーション

医療画像分析

医療画像内の臓器や病変領域のセグメンテーション

🚀 Mask2Former

Mask2Formerは、ADE20kのセマンティックセグメンテーションで学習されたモデルです（大規模版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

このモデルは画像セグメンテーションタスクに使用できます。以下のコード例を参考に、モデルを使い始めることができます。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、マスクのセットと対応するラベルを予測することで、3つのタスクをインスタンスセグメンテーションとして扱います。
以前のSOTAである MaskFormer を性能と効率の両面で上回っています。具体的な改善点は、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えること、(ii) マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させること、(iii) 損失をサブサンプリングされたポイントで計算することでトレーニング効率を向上させることです。

model image

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on ADE20k semantic segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-ade-semantic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-ade-semantic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)

📚 ドキュメント

意図された用途と制限：このモデルはパノプティックセグメンテーションに使用できます。他のタスクに対する微調整バージョンを探すには、モデルハブを参照してください。
詳細な使用方法：より詳細なコード例については、ドキュメントを参照してください。

📄 ライセンス

このモデルは他のライセンスに基づいています。

属性	详情
モデルタイプ	Mask2Formerモデル（大規模版、Swinバックボーン）
学習データ	ADE20kセマンティックセグメンテーションデータセット