video-mask2former-swin-small开源模型 - 免费用于视频实例分割任务

首页

Video Mask2former Swin Small Youtubevis 2021 Instance

由 shivalikasingh 开发

基于YouTubeVIS-2021数据集训练的Video Mask2Former模型，用于视频实例分割任务，采用Swin Transformer作为骨干网络。

图像分割

Transformers

开源协议:MIT #视频实例分割 #多帧掩码预测 #Swin骨干网络

下载量 18

发布时间 : 3/22/2023

模型简介

该模型是Mask2Former在视频实例分割任务上的扩展应用，通过统一范式处理实例分割、语义分割和全景分割任务，预测一组掩码及其对应标签。

模型特点

统一分割范式

将实例分割、语义分割和全景分割统一视为实例分割问题处理

高效注意力机制

采用多尺度可变形注意力Transformer替代传统像素解码器

掩码注意力解码器

使用带掩码注意力的Transformer解码器提升性能而不增加计算量

高效训练策略

通过子采样点计算损失而非整张掩码，显著提升训练效率

模型能力

视频实例分割

多目标跟踪

动态场景分析

使用案例

视频分析

自动驾驶场景理解

识别和跟踪道路上的动态物体

可准确分割移动车辆和行人

视频监控

实时分析监控视频中的多目标运动

支持多目标同时跟踪和分割

🚀 Video Mask2Former

Video Mask2Former是一个用于视频实例分割的模型，在YouTubeVIS - 2021数据集上进行训练（小型版本，采用Swin骨干网络）。它在论文Mask2Former for Video Instance Segmentation中被提出，并首次在此仓库发布。该模型是原Mask2Former论文Masked - attention Mask Transformer for Universal Image Segmentation的扩展。

📄 许可证

本项目采用MIT许可证。

🔍 标签

视觉
图像分割

📊 数据集

YouTubeVIS - 2021

🚀 快速开始

本模型可用于实例分割任务。你可以在[模型中心](https://huggingface.co/models?search=video - mask2former)查找该模型其他可能令你感兴趣的微调版本。

✨ 主要特性

统一范式：Mask2Former使用相同的范式处理实例分割、语义分割和全景分割，即通过预测一组掩码和相应的标签，将这3种任务都视为实例分割。
性能优越：相较于之前的SOTA模型MaskFormer，Mask2Former在性能和效率上都更胜一筹。具体通过以下方式实现：
- 用更先进的多尺度可变形注意力Transformer取代像素解码器。
- 采用带掩码注意力的Transformer解码器，在不增加额外计算量的情况下提升性能。
- 通过在子采样点上计算损失而非整个掩码，提高训练效率。
视频分割表现出色：在论文Mask2Former for Video Instance Segmentation中表明，Mask2Former在不修改架构、损失函数甚至训练流程的情况下，在视频实例分割任务上也能达到SOTA性能。

模型架构图

📚 详细文档

模型描述

Mask2Former以相同的范式处理实例、语义和全景分割：通过预测一组掩码和相应的标签，将所有3种任务都当作实例分割来处理。它在性能和效率上都超越了之前的SOTA模型MaskFormer，具体改进如下：

用更先进的多尺度可变形注意力Transformer替换像素解码器。
采用带掩码注意力的Transformer解码器，在不引入额外计算的情况下提升性能。
通过在子采样点上计算损失而非整个掩码，提高训练效率。

在论文Mask2Former for Video Instance Segmentation中，作者表明Mask2Former在不修改架构、损失函数甚至训练流程的情况下，在视频实例分割任务上也能取得SOTA性能。

预期用途与限制

你可以使用此特定检查点进行实例分割。若想了解该模型其他可能感兴趣的微调版本，请查看[模型中心](https://huggingface.co/models?search=video - mask2former)。

💻 使用示例

基础用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-small-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]