maskformer-swin-tiny-cocoオープンソース全景セグメンテーションモデル - インスタンス/セマンティック/全景セグメンテーションタスクを統一的に処理

ホーム

Maskformer Swin Tiny Coco

facebookによって開発

COCOデータセットを基に訓練された全景セグメンテーションモデルで、統一パラダイムを用いてインスタンス/セマンティック/全景セグメンテーションタスクを処理します。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #全景セグメンテーション #Swinバックボーンネットワーク #マスク予測

ダウンロード数 301

リリース時間 : 3/2/2022

モデル概要

MaskFormerは、一連のマスクとそれに対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、全景セグメンテーションをインスタンスセグメンテーション問題として統一的に処理します。

モデル特徴

統一セグメンテーションパラダイム

3種類のセグメンテーションタスクをインスタンスセグメンテーション問題として統一的に処理します。

Swinバックボーンネットワーク

効率的なSwin Transformerを特徴抽出器として採用しています。

エンドツーエンド学習

マスクとクラスを直接予測し、後処理は必要ありません。

モデル能力

画像セグメンテーション

セマンティックセグメンテーション

インスタンスセグメンテーション

全景セグメンテーション

使用事例

コンピュータビジョン

シーン理解

複雑なシーン内の物体をピクセルレベルでセグメンテーションし、分類します。

セマンティックラベル付きのセグメンテーションマスクを出力できます。

自動運転

道路シーンの物体認識とセグメンテーションを行います。

🚀 MaskFormer

MaskFormerは、COCOパノプティックセグメンテーションデータセットで訓練されたモデル（Swinバックボーンを使用したミニバージョン）です。このモデルは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションなどのタスクを解決し、画像セグメンテーション分野に新しい解決策をもたらします。

🚀 クイックスタート

このモデルをセマンティックセグメンテーションに使用するには、以下のコード例を使用できます。

from transformers import MaskFormerFeatureExtractor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

# load MaskFormer fine-tuned on COCO panoptic segmentation
feature_extractor = MaskFormerFeatureExtractor.from_pretrained("facebook/maskformer-swin-tiny-coco")
model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-tiny-coco")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to feature_extractor for postprocessing
result = feature_extractor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the MaskFormer docs)
predicted_panoptic_map = result["segmentation"]

より多くのコード例については、ドキュメントを参照してください。

✨ 主な機能

MaskFormerは、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを同じパラダイムで処理します。具体的には、一連のマスクと対応するラベルを予測することで、これら3つのタスクをすべてインスタンスセグメンテーションタスクとして扱います。モデルアーキテクチャ図

📚 ドキュメント

想定用途と制限

この特定のチェックポイントをセマンティックセグメンテーションに使用できます。モデルセンターを参照して、あなたが興味を持つタスクに合わせて微調整された他のバージョンを探してください。

使用方法

このモデルの使用方法を以下に示します。

from transformers import MaskFormerFeatureExtractor, MaskFormerForInstanceSegmentation
from PIL import Image
import requests

# 加载在COCO全景分割上微调的MaskFormer模型
feature_extractor = MaskFormerFeatureExtractor.from_pretrained("facebook/maskformer-swin-tiny-coco")
model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-tiny-coco")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
# 模型预测形状为 `(batch_size, num_queries)` 的 class_queries_logits
# 以及形状为 `(batch_size, num_queries, height, width)` 的 masks_queries_logits
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# 你可以将它们传递给特征提取器进行后处理
result = feature_extractor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# 我们参考演示笔记本进行可视化（请参阅MaskFormer文档中的“资源”部分）
predicted_panoptic_map = result["segmentation"]