Mask2Formerオープンソース画像分割モデル - 無料でデプロイして画像を高精度に分割、卓越した性能を持つ

ホーム

Mask2former Swin Small Cityscapes Instance

facebookによって開発

Mask2FormerはTransformerベースの統一画像セグメンテーションモデルで、マスクアテンションメカニズムにより性能を向上

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #インスタンスセグメンテーション #Swinバックボーンネットワーク #マルチスケールアテンション

ダウンロード数 43

リリース時間 : 1/5/2023

モデル概要

このモデルはMask2Formerの小型バージョンで、Swin Transformerをバックボーンネットワークとして使用し、Cityscapesデータセット向けにインスタンスセグメンテーションタスク用にファインチューニングされています。インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理する統一アーキテクチャを採用しています。

モデル特徴

統一セグメンテーションアーキテクチャ

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理する統一パラダイムを採用

マスクアテンションメカニズム

マスク付きアテンションを備えたTransformerデコーダーを導入し、計算量を増やすことなく性能を向上

効率的なトレーニング戦略

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像インスタンスセグメンテーション

マルチスケール特徴抽出

高精度な物体境界認識

使用事例

自動運転

街路物体認識

都市景観中の車両、歩行者などのインスタンスを識別

Cityscapesデータセットで優れたパフォーマンス

インテリジェント監視

シーン分析

監視映像中の物体を正確にセグメンテーションし識別

🚀 Mask2Former

Mask2Formerは、Cityscapesのインスタンスセグメンテーションで学習されたモデルです（小型版、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、Mask2Formerモデルの概要と使用方法について説明します。

✨ 主な機能

インスタンス、セマンティック、パノプティックセグメンテーションを同じパラダイムで扱います。
マスクと対応するラベルを予測することで、3つのタスクをインスタンスセグメンテーションとして扱います。
以前のSOTAである MaskFormer を性能と効率の両面で上回っています。

📚 ドキュメント

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、マスクのセットと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。これは以下の3つの点で達成されています。

ピクセルデコーダをより高度なマルチスケール変形可能注意Transformerに置き換える。
マスクされた注意を持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させる。
損失をマスク全体ではなくサブサンプリングされた点で計算することで、トレーニング効率を向上させる。

model image

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他のタスクに対する微調整バージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルを使用する方法の例です。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Cityscapes instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-small-cityscapes-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-small-cityscapes-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]