video-mask2former-swin-tinyオープンソースビデオインスタンスセグメンテーションモデル - 無料でデプロイ可能で、ビデオターゲットを高精度で分割

ホーム

Video Mask2former Swin Tiny Youtubevis 2019 Instance

shivalikasinghによって開発

YouTubeVIS-2019データセットでトレーニングされた小型ビデオインスタンスセグメンテーションモデル、Swin TransformerバックボーンネットワークとMask2Former統一セグメンテーションアーキテクチャを採用

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #ビデオインスタンスセグメンテーション #Swinバックボーンネットワーク #マルチスケールアテンション

ダウンロード数 19

リリース時間 : 3/15/2023

モデル概要

このモデルはMask2Formerのビデオインスタンスセグメンテーションタスクへの実装で、一連のマスクと対応するラベルを予測することでビデオ内のオブジェクトセグメンテーション問題を処理し、アーキテクチャを変更せずにビデオデータに適応

モデル特徴

統一セグメンテーションアーキテクチャ

インスタンスセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションをマスク予測問題として統一し、同じアーキテクチャで処理

マルチスケール変形可能アテンション

先進的なマルチスケール変形可能アテンションメカニズムを採用し、従来のピクセルデコーダーを置き換え、特徴抽出効率を向上

マスクアテンションデコーダー

革新的なマスクアテンション付きTransformerデコーダー設計で、計算量を増やさずに性能を向上

効率的なトレーニング戦略

完全なマスクではなくサンプルポイントに基づいて損失を計算することで、トレーニング効率を大幅に向上

モデル能力

ビデオオブジェクトインスタンスセグメンテーション

複数オブジェクト追跡とセグメンテーション

ビデオシーン理解

使用事例

ビデオ分析

自動運転シーン理解

道路シーン内の車両、歩行者などの動的オブジェクトを識別・セグメンテーション

ビデオ内の複数オブジェクトの連続追跡と精密セグメンテーションを実現

ビデオ編集と特殊効果

ビデオ内の前景オブジェクトを自動分離し特殊効果処理を可能に

高度なビデオ編集をサポートする精密なオブジェクトマスクを提供

監視とセキュリティ

インテリジェント監視分析

監視ビデオ内の不審なオブジェクトをリアルタイム検出・追跡

複数ターゲットの同時追跡と行動分析をサポート

🚀 Video Mask2Former

Video Mask2Formerは、YouTubeVIS - 2019のインスタンスセグメンテーションで学習されたモデルです（tinyサイズ版、Swinバックボーン）。このモデルは論文 Mask2Former for Video Instance Segmentation で紹介され、このリポジトリで最初に公開されました。Video Mask2Formerは、Masked - attention Mask Transformer for Universal Image Segmentation という名前で公開された元のMask2Former論文の拡張版です。

なお、Mask2Formerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

Video Mask2Formerは、YouTubeVIS - 2019のデータセットを用いて訓練されたビデオインスタンスセグメンテーションモデルです。同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱い、高い性能を発揮します。

✨ 主な機能

モデルの概要

Mask2Formerは、同じパラダイムでインスタンス、セマンティック、パノプティックセグメンテーションを扱います。具体的には、一連のマスクと対応するラベルを予測することで、3つのタスクをすべてインスタンスセグメンテーションとして扱います。

このモデルは、以前のSOTAである MaskFormer を性能と効率の両面で上回っています。その理由は以下の通りです。

ピクセルデコーダをより高度なマルチスケール変形可能アテンションTransformerに置き換えました。
マスクされたアテンションを持つTransformerデコーダを採用し、追加の計算を導入することなく性能を向上させました。
損失をマスク全体ではなくサブサンプリングされたポイントで計算することで、トレーニング効率を向上させました。

論文 Mask2Former for Video Instance Segmentation では、Mask2Formerがアーキテクチャ、損失、トレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションでも最先端の性能を達成することが示されています。

モデル画像

想定用途と制限事項

この特定のチェックポイントはインスタンスセグメンテーションに使用できます。他の微調整されたバージョンのモデルを探すには、[モデルハブ](https://huggingface.co/models?search=video - mask2former) を参照してください。

💻 使用例

基本的な使用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]