video-mask2former-swin-tiny開源視頻實例分割模型 - 免費部署精準分割視頻目標

首頁

Video Mask2former Swin Tiny Youtubevis 2019 Instance

由shivalikasingh開發

基於YouTubeVIS-2019數據集訓練的微型視頻實例分割模型，採用Swin Transformer骨幹網絡和Mask2Former統一分割架構

圖像分割

Transformers

開源協議:MIT #視頻實例分割 #Swin骨幹網絡 #多尺度注意力

下載量 19

發布時間 : 3/15/2023

模型概述

該模型是Mask2Former在視頻實例分割任務上的實現，通過預測一組掩碼及其對應標籤來處理視頻中的對象分割問題，無需修改架構即可適應視頻數據

模型特點

統一分割架構

將實例分割、語義分割和全景分割統一為掩碼預測問題，使用相同架構處理

多尺度可變形注意力

採用先進的多尺度可變形注意力機制替代傳統像素解碼器，提升特徵提取效率

掩碼注意力解碼器

創新的帶掩碼注意力的Transformer解碼器設計，在不增加計算量的情況下提升性能

高效訓練策略

通過基於採樣點而非完整掩碼計算損失，顯著提高訓練效率

模型能力

視頻對象實例分割

多對象跟蹤與分割

視頻場景理解

使用案例

視頻分析

自動駕駛場景理解

識別和分割道路場景中的車輛、行人等動態對象

可實現視頻中多對象的連續跟蹤與精確分割

視頻編輯與特效

自動分離視頻中的前景對象以便進行特效處理

提供精確的對象掩碼支持高級視頻編輯

監控與安防

智能監控分析

即時檢測和跟蹤監控視頻中的可疑對象

支持多目標同時跟蹤與行為分析

🚀 視頻掩碼2Former（Video Mask2Former）

Video Mask2Former是在YouTubeVIS - 2019實例分割數據集上訓練的模型（微小版本，採用Swin骨幹網絡），可有效解決視頻實例分割問題。

🚀 快速開始

Video Mask2Former模型在YouTubeVIS - 2019實例分割數據集上進行訓練（微小版本，採用Swin骨幹網絡）。該模型在論文用於視頻實例分割的Mask2Former中被提出，並首次在此倉庫發佈。Video Mask2Former是原用於通用圖像分割的掩碼注意力掩碼變換器（Masked - attention Mask Transformer for Universal Image Segmentation）論文中Mask2Former模型的擴展。

聲明：發佈Mask2Former的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

模型描述

Mask2Former使用相同的範式來處理實例、語義和全景分割：通過預測一組掩碼和相應的標籤。因此，所有這3項任務都被視為實例分割。與之前的最優模型MaskFormer相比，Mask2Former在性能和效率方面都更勝一籌，具體體現在：

用更先進的多尺度可變形注意力變換器取代像素解碼器；
採用帶掩碼注意力的變換器解碼器，在不引入額外計算的情況下提升性能；
通過在子採樣點而不是整個掩碼上計算損失來提高訓練效率。

在論文用於視頻實例分割的Mask2Former中，作者表明Mask2Former在不修改架構、損失函數甚至訓練流程的情況下，在視頻實例分割任務上也取得了最優性能。

模型圖像

預期用途與侷限性

你可以使用此特定檢查點進行實例分割。請查看[模型中心](https://huggingface.co/models?search=video - mask2former)，以查找此模型其他可能令你感興趣的微調版本。

💻 使用示例

基礎用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]