maskformer-swin-base-cocoオープンソース全景セグメンテーションモデル - インスタンス/セマンティック/セグメンテーションタスクを統一的に処理

ホーム

Maskformer Swin Base Coco

facebookによって開発

Swinバックボーンネットワークを基盤とし、COCOデータセットで訓練されたパノプティックセグメンテーションモデルで、インスタンス/セマンティック/パノプティックセグメンテーションタスクを統一的に処理

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #パノプティックセグメンテーション #Swinバックボーンネットワーク #マスク予測

ダウンロード数 3,855

リリース時間 : 3/2/2022

モデル概要

MaskFormerは一連のマスクとそれに対応するラベルを予測することで、セグメンテーションタスクをインスタンスセグメンテーション問題として統一して扱います。このチェックポイントはセマンティックセグメンテーションタスク向けに最適化されています。

モデル特徴

統一セグメンテーションパラダイム

インスタンス/セマンティック/パノプティックセグメンテーションをマスク予測問題として統一し、タスク処理フローを簡素化

Swinバックボーンネットワーク

効率的なSwin Transformerを特徴抽出バックボーンとして採用し、グローバルコンテキストとローカルディテールを両立

エンドツーエンドトレーニング

ROI操作や後処理グループ化に依存せず、直接バイナリマスクとクラスラベルを予測

モデル能力

画像セマンティックセグメンテーション

インスタンスレベルオブジェクト認識

パノプティックシーン解析

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の物体をピクセルレベルで分類・分割

セマンティックラベル付き分割マスク画像を出力可能

自動運転

道路シーン中の走行可能領域、車両、歩行者をリアルタイム解析

🚀 MaskFormer

MaskFormerは、COCOパノプティックセグメンテーションで学習されたモデルです（ベースサイズ版、Swinバックボーン）。このモデルは論文 Per-Pixel Classification is Not All You Need for Semantic Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、MaskFormerを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、MaskFormerモデルの概要と使用方法について説明します。

✨ 主な機能

モデルの概要

MaskFormerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、マスクのセットと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

モデル画像

想定される用途と制限

この特定のチェックポイントはセマンティックセグメンテーションに使用できます。他のタスクに対して微調整されたバージョンを探すには、モデルハブを参照してください。

📦 インストール

このモデルを使用するには、transformers ライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import MaskFormerFeatureExtractor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

# load MaskFormer fine-tuned on COCO panoptic segmentation
feature_extractor = MaskFormerFeatureExtractor.from_pretrained("facebook/maskformer-swin-base-coco")
model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-base-coco")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to feature_extractor for postprocessing
result = feature_extractor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_panoptic_map = result["segmentation"]