video-mask2former-swin-tiny-youtubevis-2021-instance開源模型

首頁

Video Mask2former Swin Tiny Youtubevis 2021 Instance

由shivalikasingh開發

基於YouTubeVIS-2021數據集訓練的微型視頻實例分割模型，採用Swin Transformer骨幹網絡

圖像分割

Transformers

開源協議:MIT #視頻實例分割 #Swin骨幹網絡 #掩碼注意力

下載量 22

發布時間 : 3/15/2023

模型概述

Video Mask2Former是Mask2Former的擴展版本，專為視頻實例分割任務設計，採用統一架構處理分割任務，通過預測掩碼及其對應標籤實現高性能分割

模型特點

統一分割架構

採用統一範式處理實例分割、語義分割和全景分割任務，將所有任務視為實例分割處理

改進的注意力機制

使用多尺度可變形注意力Transformer替換像素解碼器，並採用帶掩碼注意力的Transformer解碼器提升性能

高效訓練方法

通過基於採樣點計算損失而非整張掩碼，顯著提升訓練效率

視頻處理能力

在不修改架構的情況下，直接應用於視頻實例分割任務並達到最先進水平

模型能力

視頻實例分割

對象掩碼預測

多幀視頻分析

使用案例

視頻分析

視頻對象跟蹤與分割

對視頻中的對象進行實例分割和跟蹤

可生成逐幀的對象分割掩碼

自動駕駛場景理解

分析道路場景視頻，識別和分割各類交通參與者

🚀 視頻Mask2Former

視頻Mask2Former是一個在YouTubeVIS - 2021實例分割數據集上訓練的模型（微小尺寸版本，採用Swin骨幹網絡）。它在論文用於視頻實例分割的Mask2Former中被提出，並首次在此倉庫發佈。視頻Mask2Former是原始Mask2Former論文的擴展，原論文名為用於通用圖像分割的掩碼注意力掩碼變換器。

聲明：發佈Mask2Former的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

✨ 主要特性

統一範式：Mask2Former使用相同的範式處理實例、語義和全景分割任務，即通過預測一組掩碼和相應的標籤，將這3個任務都視為實例分割任務。
性能卓越：在性能和效率方面均超越了之前的最優模型MaskFormer。具體通過以下方式實現：用更先進的多尺度可變形注意力變換器替換像素解碼器；採用帶有掩碼注意力的變換器解碼器，在不引入額外計算的情況下提升性能；通過在子採樣點而非整個掩碼上計算損失來提高訓練效率。
視頻分割表現出色：在論文用於視頻實例分割的Mask2Former中，作者表明Mask2Former在不修改架構、損失函數甚至訓練流程的情況下，在視頻實例分割任務上也達到了最優性能。

📦 安裝指南

文檔中未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]