Mask2Formerオープンソースインスタンスセグメンテーションモデル - 無料でデプロイし、画像インスタンスセグメンテーションタスクを正確に完了

ホーム

Mask2former Swin Large Coco Instance

facebookによって開発

Mask2FormerはTransformerベースの統一画像セグメンテーションモデルで、Swin-Largeバックボーンを使用しCOCOデータセットでファインチューニングされ、インスタンスセグメンテーションタスクに特化しています

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #インスタンスセグメンテーションSOTA

ダウンロード数 37.31k

リリース時間 : 1/2/2023

モデル概要

このモデルは一連のマスクと対応するラベルを予測することでインスタンスセグメンテーションを実現し、マルチスケール変形可能アテンション機構を採用して性能を向上させたMaskFormerの改良版です

モデル特徴

統一セグメンテーションフレームワーク

同じアーキテクチャでインスタンス/セマンティック/パノプティックセグメンテーションタスクを処理し、プロセスを簡素化

マルチスケール変形可能アテンション

従来のピクセルデコーダーを置き換え、特徴抽出効率を大幅に向上

マスクアテンション機構

Transformerデコーダーにマスクアテンションを導入し、計算負荷を増やさずに性能向上

効率的なトレーニング戦略

マスク全体ではなくサンプルポイントで損失を計算し、トレーニング速度を3倍向上

モデル能力

画像インスタンスセグメンテーション

複数オブジェクト検出とセグメンテーション

複雑なシーン解析

使用事例

コンピュータビジョン

オブジェクトインスタンスセグメンテーション

画像内の各オブジェクトインスタンスに対して正確なセグメンテーションマスクを生成

COCOデータセットでSOTA性能を達成

シーン理解

複雑なシーン内のオブジェクト分布と空間関係を解析

🚀 Mask2Former

Mask2Formerは、COCOインスタンスセグメンテーションで学習されたモデル（大規模版、Swinバックボーン）です。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、インスタンスセグメンテーションに使用できます。他のタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

このモデルは、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換え、(ii) マスクされたアテンションを持つTransformerデコーダを採用して追加の計算を導入することなくパフォーマンスを向上させ、(iii) 損失をマスク全体ではなくサブサンプリングされたポイントで計算することでトレーニング効率を向上させることで、以前のSOTAである MaskFormer をパフォーマンスと効率の両面で上回っています。

モデル画像

📚 ドキュメント

想定される使用目的と制限

この特定のチェックポイントは、インスタンスセグメンテーションに使用できます。関心のあるタスクで微調整された他のバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルの使用方法です。

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on COCO instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-coco-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-coco-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]