video-mask2former-swin-tiny-youtubevis-2021-instanceオープンソースモデル - ミニチュア動画インスタンスセグメンテーション実用ツール

ホーム

Video Mask2former Swin Tiny Youtubevis 2021 Instance

shivalikasinghによって開発

YouTubeVIS-2021データセットでトレーニングされた小型ビデオインスタンスセグメンテーションモデル、Swin Transformerバックボーンネットワークを採用

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #ビデオインスタンスセグメンテーション #Swinバックボーンネットワーク #マスクアテンション

ダウンロード数 22

リリース時間 : 3/15/2023

モデル概要

Video Mask2FormerはMask2Formerの拡張版で、ビデオインスタンスセグメンテーションタスク向けに設計され、統一アーキテクチャでセグメンテーションタスクを処理し、マスクと対応するラベルを予測することで高性能セグメンテーションを実現

モデル特徴

統一セグメンテーションアーキテクチャ

インスタンスセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションタスクを統一パラダイムで処理し、全てのタスクをインスタンスセグメンテーションとして扱う

改良されたアテンションメカニズム

マルチスケール変形可能アテンションTransformerを使用してピクセルデコーダーを置き換え、マスクアテンション付きTransformerデコーダーを採用して性能を向上

効率的なトレーニング方法

マスク全体ではなくサンプルポイントベースで損失を計算することで、トレーニング効率を大幅に向上

ビデオ処理能力

アーキテクチャを変更せずに、ビデオインスタンスセグメンテーションタスクに直接適用し最先端のレベルを達成

モデル能力

ビデオインスタンスセグメンテーション

オブジェクトマスク予測

マルチフレームビデオ分析

使用事例

ビデオ分析

ビデオオブジェクトトラッキングとセグメンテーション

ビデオ内のオブジェクトをインスタンスセグメンテーションしてトラッキング

フレームごとのオブジェクトセグメンテーションマスクを生成可能

自動運転シーン理解

道路シーンのビデオを分析し、様々な交通参加者を識別・セグメンテーション

🚀 Video Mask2Former

Video Mask2Formerは、YouTubeVIS - 2021のインスタンスセグメンテーションで学習されたモデルです（tinyサイズ版、Swinバックボーン）。このモデルは論文 Mask2Former for Video Instance Segmentation で紹介され、このリポジトリで最初に公開されました。Video Mask2Formerは、Masked - attention Mask Transformer for Universal Image Segmentation という名前で公開された元のMask2Former論文の拡張版です。

免責事項：Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、マスクのセットと対応するラベルを予測することです。したがって、3つのタスクはすべてインスタンスセグメンテーションとして扱われます。Mask2Formerは、以前のSOTAである MaskFormer を、以下の点で性能と効率の両面で上回っています。

ピクセルデコーダをより高度なマルチスケール変形可能注意Transformerに置き換える。
マスクされた注意を持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させる。
損失を全マスクではなくサブサンプリングされたポイントで計算することで、学習効率を向上させる。

論文 Mask2Former for Video Instance Segmentation では、著者らはMask2Formerがアーキテクチャ、損失、学習パイプラインを変更することなく、ビデオインスタンスセグメンテーションでも最先端の性能を達成することを示しています。

モデル画像

想定される用途と制限

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他の微調整されたバージョンのこのモデルに興味がある場合は、モデルハブを参照してください。

📦 インストール

このモデルを使用するために必要なライブラリは、コード内で自動的にインポートされます。ただし、以下のライブラリが事前にインストールされている必要があります。

pip install torch torchvision huggingface_hub transformers

💻 使用例

基本的な使用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]