video-mask2former-swin-smallオープンソースモデル - ビデオインスタンスセグメンテーションタスクに无料で使用可能

Video Mask2former Swin Small Youtubevis 2021 Instance

shivalikasinghによって開発

YouTubeVIS-2021データセットでトレーニングされたVideo Mask2Formerモデルで、ビデオインスタンスセグメンテーションタスクに使用され、Swin Transformerをバックボーンネットワークとして採用しています。

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #ビデオインスタンスセグメンテーション #マルチフレームマスク予測 #Swinバックボーンネットワーク

ダウンロード数 18

リリース時間 : 3/22/2023

モデル概要

このモデルは、Mask2Formerをビデオインスタンスセグメンテーションタスクに拡張したもので、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的なパラダイムで処理し、一連のマスクとそれに対応するラベルを予測します。

モデル特徴

統一セグメンテーションパラダイム

インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーション問題として統一して処理

効率的なアテンションメカニズム

マルチスケール変形可能アテンションTransformerを従来のピクセルデコーダーの代わりに採用

マスクアテンションデコーダー

マスクアテンション付きTransformerデコーダーを使用して、計算量を増やすことなく性能を向上

効率的なトレーニング戦略

マスク全体ではなくサブサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

ビデオインスタンスセグメンテーション

マルチオブジェクトトラッキング

動的シーン分析

使用事例

ビデオ分析

自動運転シーン理解

道路上の動的物体を識別・追跡

移動する車両や歩行者を正確にセグメンテーション可能

ビデオ監視

監視ビデオ中の複数ターゲットの動きをリアルタイム分析

複数ターゲットの同時追跡とセグメンテーションをサポート

🚀 Video Mask2Former

Video Mask2Formerは、YouTubeVIS - 2021のインスタンスセグメンテーションに対して学習されたモデルです（小型版、Swinバックボーン）。このモデルは論文 Mask2Former for Video Instance Segmentation で紹介され、このリポジトリで最初に公開されました。Video Mask2Formerは、Masked - attention Mask Transformer for Universal Image Segmentation という名前で公開された元のMask2Former論文の拡張版です。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。すなわち、マスクのセットと対応するラベルを予測することです。したがって、3つのタスクはすべてインスタンスセグメンテーションとして扱われます。Mask2Formerは、以前のSOTAである MaskFormer を、(i) ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えること、(ii) マスクされたアテンションを持つTransformerデコーダを採用して、追加の計算を導入することなく性能を向上させること、(iii) 損失をマスク全体ではなくサブサンプリングされたポイントで計算することでトレーニング効率を向上させることにより、性能と効率の両面で上回っています。

論文 Mask2Former for Video Instance Segmentation では、著者らはMask2Formerがアーキテクチャ、損失、トレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションにおいても最先端の性能を達成することを示しています。

モデル画像

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他の微調整されたバージョンのモデルを探すには、[モデルハブ](https://huggingface.co/models?search=video - mask2former) を参照してください。

📦 インストール

このモデルを使用するには、以下のライブラリが必要です。

pip install torch torchvision huggingface_hub transformers

💻 使用例

基本的な使用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]