Mask2Formerオープンソース画像分割モデル - COCOデータセットのインスタンス分割タスクに無料でデプロイ可能

ホーム

Mask2former Swin Base IN21k Coco Instance

facebookによって開発

Mask2FormerはTransformerベースの汎用画像セグメンテーションモデルで、COCOデータセットでインスタンスセグメンテーションタスク向けにファインチューニングされています

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #統一画像セグメンテーション #マルチスケールアテンション #インスタンスセグメンテーション

ダウンロード数 26

リリース時間 : 1/16/2023

モデル概要

統一アーキテクチャを採用し、インスタンス/セマンティック/パノプティックセグメンテーションタスクを処理、マスクグループと対応するラベルを予測することで高性能なセグメンテーションを実現

モデル特徴

統一セグメンテーションアーキテクチャ

同じモデルアーキテクチャを使用してインスタンス/セマンティック/パノプティックの3種類のセグメンテーションタスクを処理

マスクアテンションメカニズム

革新的なマスクアテンションTransformerデコーダーにより、計算量を増やさずに性能を向上

効率的なトレーニング戦略

マスク全体ではなくサンプルポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

画像インスタンスセグメンテーション

マルチオブジェクト認識とセグメンテーション

複雑なシーン解析

使用事例

コンピュータビジョン

物体インスタンスセグメンテーション

画像内の各物体インスタンスを正確にセグメンテーション

COCOデータセットで先進的な性能を達成

シーン理解

複雑なシーン内の物体とその空間関係を解析

🚀 Mask2Former

Mask2Formerは、COCOインスタンスセグメンテーションで学習されたモデルです（ベースサイズのIN21kバージョン、Swinバックボーン）。このモデルは論文 Masked-attention Mask Transformer for Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

免責事項: Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクすべてをインスタンスセグメンテーションとして扱います。Mask2Formerは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。その理由は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換える。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させる。
損失をマスク全体ではなくサブサンプリングされたポイントで計算することで、学習効率を向上させる。

モデル画像

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。関心のあるタスクで微調整された他のバージョンを探すには、モデルハブを参照してください。

📦 インストール

このセクションでは、必要なライブラリをインストールする方法を説明します。以下のコマンドを使用して、必要な依存関係をインストールできます。

pip install requests torch pillow transformers

💻 使用例

基本的な使用法

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on COCO instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-base-IN21k-coco-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-base-IN21k-coco-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]

高度な使用法

より多くのコード例については、ドキュメントを参照してください。

📄 ライセンス

このモデルは、他のライセンスの下で提供されています。詳細については、こちらを参照してください。

📚 ドキュメント

論文: Masked-attention Mask Transformer for Universal Image Segmentation
リポジトリ: https://github.com/facebookresearch/Mask2Former/
モデルハブ: https://huggingface.co/models?search=mask2former
ドキュメント: https://huggingface.co/docs/transformers/master/en/model_doc/mask2former

属性	详情
モデルタイプ	Mask2Formerモデル（COCOインスタンスセグメンテーションで学習されたベースサイズのIN21kバージョン、Swinバックボーン）
学習データ	COCOデータセット