video-mask2former-swin-smallオープンソースモデル - ビデオインスタンスセグメンテーションタスクに无料で使用可能

Video Mask2former Swin Small Youtubevis 2021 Instance

Developed by shivalikasingh

YouTubeVIS-2021データセットでトレーニングされたVideo Mask2Formerモデルで、ビデオインスタンスセグメンテーションタスクに使用され、Swin Transformerをバックボーンネットワークとして採用しています。

画像セグメンテーション

Transformers

Open Source License:MIT #ビデオインスタンスセグメンテーション #マルチフレームマスク予測 #Swinバックボーンネットワーク

Downloads 18

Release Time : 3/22/2023

Model Overview

このモデルは、Mask2Formerをビデオインスタンスセグメンテーションタスクに拡張したもので、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的なパラダイムで処理し、一連のマスクとそれに対応するラベルを予測します。

Model Features

統一セグメンテーションパラダイム

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーション問題として統一して処理

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerを従来のピクセルデコーダーの代わりに採用

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを使用して、計算量を増やすことなく性能を向上

効率的なトレーニング戦略

マスク全体ではなくサブサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

Model Capabilities

ビデオインスタンスセグメンテーション

マルチオブジェクトトラッキング

動的シーン分析

Use Cases

ビデオ分析

自動運転シーン理解

道路上の動的物体を識別・追跡

移動する車両や歩行者を正確にセグメンテーション可能

ビデオ監視

監視ビデオ中の複数ターゲットの動きをリアルタイム分析

複数ターゲットの同時追跡とセグメンテーションをサポート

🚀 Video Mask2Former

Video Mask2Formerは、YouTubeVIS - 2021のインスタンスセグメンテーションに対して学習されたモデルです（小型版、Swinバックボーン）。このモデルは論文 Mask2Former for Video Instance Segmentation で紹介され、このリポジトリで最初に公開されました。Video Mask2Formerは、Masked - attention Mask Transformer for Universal Image Segmentation という名前で公開された元のMask2Former論文の拡張版です。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。すなわち、マスクのセットと対応するラベルを予測することです。したがって、3つのタスクはすべてインスタンスセグメンテーションとして扱われます。Mask2Formerは、以前のSOTAである MaskFormer を、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えること、(ii) マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させること、(iii) 損失をマスク全体ではなくサブサンプリングされたポイントで計算することでトレーニング効率を向上させることにより、性能と効率の両面で上回っています。

論文 Mask2Former for Video Instance Segmentation では、著者らはMask2Formerがアーキテクチャ、損失、トレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションにおいても最先端の性能を達成することを示しています。

モデル画像

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他の微調整されたバージョンのモデルを探すには、[モデルハブ](https://huggingface.co/models?search=video - mask2former) を参照してください。

📦 インストール

このモデルを使用するには、以下のライブラリが必要です。

pip install torch torchvision huggingface_hub transformers

💻 使用例

基本的な使用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]