mask2former - swin - large - coco - panopticオープンソース画像分割モデル

ホーム

Mask2former Swin Large Coco Panoptic

facebookによって開発

Swinバックボーンネットワークに基づくMask2Formerの大型バージョンで、COCOデータセットのパノプティックセグメンテーションタスク向けに訓練された統一画像セグメンテーションモデル

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #マルチタスク統一フレームワーク #Swinバックボーンネットワーク

ダウンロード数 37.67k

リリース時間 : 1/2/2023

モデル概要

Mask2Formerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理するために、一連のマスクとそれに対応するラベルを予測することで統一された画像セグメンテーションフレームワークです。前世代モデルのMaskFormerと比較して、性能と効率の両方で大幅な向上が見られます。

モデル特徴

統一セグメンテーションフレームワーク

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをマスク予測問題として統一し、タスク処理フローを簡素化

マルチスケール変形可能アテンション

従来のピクセルデコーダーを置き換える先進的なマルチスケール変形可能アテンショントランスフォーマーを採用し、特徴抽出能力を向上

マスクアテンションメカニズム

トランスフォーマーデコーダーにマスクアテンションを導入し、計算量を増やすことなく性能を大幅に向上

効率的なトレーニング戦略

マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セグメンテーション

インスタンス認識

セマンティック理解

パノプティックシーン解析

使用事例

コンピュータビジョン

自動運転シーン理解

道路シーン内の様々な物体とその正確な境界を識別するために使用

車両、歩行者、道路標識などの要素を正確にセグメント化可能

医療画像分析

医療画像内の臓器や病変領域のセグメンテーションを支援

正確な臓器境界の分割を提供

リモートセンシング画像解析

衛星または航空画像内の地物分布を分析

建物、植生、水域などの地理要素を識別可能

🚀 Mask2Former

Mask2Formerは、COCOパノプティックセグメンテーションで学習されたモデル（大規模版、Swinバックボーン）です。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、画像のインスタンス、セマンティック、パノプティックセグメンテーションを同じパラダイムで扱います。マスクと対応するラベルのセットを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

✨ 主な機能

同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱うことができます。
従来のSOTAである MaskFormer を性能と効率の両面で上回っています。
- ピクセルデコーダをより高度なマルチスケール変形可能注意Transformerに置き換えました。
- マスクされた注意を持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させました。
- サブサンプリングされたポイントで損失を計算することで、トレーニング効率を向上させました。

モデル画像

📚 ドキュメント

想定される用途と制限

このチェックポイントはパノプティックセグメンテーションに使用できます。他のタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

以下はこのモデルの使用方法です。

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# COCOパノプティックセグメンテーションでファインチューニングされたMask2Formerをロードする
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-coco-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# モデルは形状が `(batch_size, num_queries)` の class_queries_logits と
# 形状が `(batch_size, num_queries, height, width)` の masks_queries_logits を予測する
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# これらを後処理のためにプロセッサに渡すことができる
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# 可視化についてはデモノートブックを参照する（Mask2Formerのドキュメントの「リソース」セクションを参照）
predicted_panoptic_map = result["segmentation"]