video - Mask2Formerオープンソースビデオインスタンスセグメンテーションモデル - ビデオを精度良くセグメント化、無料でデプロイ可能で超便利

ホーム

Video Mask2former Swin Large Youtubevis 2021 Instance

shivalikasinghによって開発

YouTubeVIS-2021データセットでトレーニングされたビデオインスタンスセグメンテーションモデル、Swin TransformerバックボーンネットワークとMask2Former統一セグメンテーションアーキテクチャを採用

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #ビデオインスタンスセグメンテーション #Swinバックボーンネットワーク #マルチスケールアテンション

ダウンロード数 52

リリース時間 : 3/22/2023

モデル概要

このモデルは、一連のマスクと対応するラベルを予測することでビデオインスタンスセグメンテーションを実現し、Transformerアーキテクチャを使用してセグメンテーションタスクを統一的に処理し、性能と効率の面で前世代のモデルを凌駕

モデル特徴

統一セグメンテーションアーキテクチャ

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーション問題として統一的に処理

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerを採用し、従来のピクセルデコーダーを置き換え

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを導入し、計算量を増やさずに性能を向上

効率的なトレーニング戦略

サンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

ビデオインスタンスセグメンテーション

マルチオブジェクトトラッキング

動的シーン分析

使用事例

ビデオ分析

自動運転シーン理解

道路シーン内の動的物体インスタンスをリアルタイム分析

移動車両、歩行者などのターゲットを正確にセグメンテーションし追跡可能

ビデオ監視

監視ビデオ内のマルチオブジェクト検出と追跡

長時間にわたるフレーム間のインスタンス一貫性を維持可能

🚀 Video Mask2Former

Video Mask2Formerは、YouTubeVIS - 2021のインスタンスセグメンテーションで学習されたモデルです（大規模版、Swinバックボーン）。このモデルは論文 Mask2Former for Video Instance Segmentation で紹介され、このリポジトリで最初に公開されました。Video Mask2Formerは、Masked - attention Mask Transformer for Universal Image Segmentation という名前で公開された元のMask2Former論文の拡張版です。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

Video Mask2Formerは、YouTubeVIS - 2021のインスタンスセグメンテーションタスクに特化したモデルです。以下のコードを使って、このモデルを使用することができます。

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-large-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-large-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]

詳細なコード例については、ドキュメントを参照してください。

✨ 主な機能

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。
以前のSOTAである MaskFormer を性能と効率の両面で上回っています。具体的には、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えること、(ii) マスク付きアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させること、(iii) 損失を全体のマスクではなくサブサンプリングされたポイントで計算することで学習効率を向上させることが挙げられます。
論文 Mask2Former for Video Instance Segmentation では、Mask2Formerがアーキテクチャ、損失、さらには学習パイプラインを変更することなく、ビデオインスタンスセグメンテーションにおいても最先端の性能を達成することが示されています。

model image