video-mask2former-swin-tiny开源视频实例分割模型 - 免费部署精准分割视频目标

首页

Video Mask2former Swin Tiny Youtubevis 2019 Instance

由 shivalikasingh 开发

基于YouTubeVIS-2019数据集训练的微型视频实例分割模型，采用Swin Transformer骨干网络和Mask2Former统一分割架构

图像分割

Transformers

开源协议:MIT #视频实例分割 #Swin骨干网络 #多尺度注意力

下载量 19

发布时间 : 3/15/2023

模型简介

该模型是Mask2Former在视频实例分割任务上的实现，通过预测一组掩码及其对应标签来处理视频中的对象分割问题，无需修改架构即可适应视频数据

模型特点

统一分割架构

将实例分割、语义分割和全景分割统一为掩码预测问题，使用相同架构处理

多尺度可变形注意力

采用先进的多尺度可变形注意力机制替代传统像素解码器，提升特征提取效率

掩码注意力解码器

创新的带掩码注意力的Transformer解码器设计，在不增加计算量的情况下提升性能

高效训练策略

通过基于采样点而非完整掩码计算损失，显著提高训练效率

模型能力

视频对象实例分割

多对象跟踪与分割

视频场景理解

使用案例

视频分析

自动驾驶场景理解

识别和分割道路场景中的车辆、行人等动态对象

可实现视频中多对象的连续跟踪与精确分割

视频编辑与特效

自动分离视频中的前景对象以便进行特效处理

提供精确的对象掩码支持高级视频编辑

监控与安防

智能监控分析

实时检测和跟踪监控视频中的可疑对象

支持多目标同时跟踪与行为分析

🚀 视频掩码2Former（Video Mask2Former）

Video Mask2Former是在YouTubeVIS - 2019实例分割数据集上训练的模型（微小版本，采用Swin骨干网络），可有效解决视频实例分割问题。

🚀 快速开始

Video Mask2Former模型在YouTubeVIS - 2019实例分割数据集上进行训练（微小版本，采用Swin骨干网络）。该模型在论文用于视频实例分割的Mask2Former中被提出，并首次在此仓库发布。Video Mask2Former是原用于通用图像分割的掩码注意力掩码变换器（Masked - attention Mask Transformer for Universal Image Segmentation）论文中Mask2Former模型的扩展。

声明：发布Mask2Former的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

模型描述

Mask2Former使用相同的范式来处理实例、语义和全景分割：通过预测一组掩码和相应的标签。因此，所有这3项任务都被视为实例分割。与之前的最优模型MaskFormer相比，Mask2Former在性能和效率方面都更胜一筹，具体体现在：

用更先进的多尺度可变形注意力变换器取代像素解码器；
采用带掩码注意力的变换器解码器，在不引入额外计算的情况下提升性能；
通过在子采样点而不是整个掩码上计算损失来提高训练效率。

在论文用于视频实例分割的Mask2Former中，作者表明Mask2Former在不修改架构、损失函数甚至训练流程的情况下，在视频实例分割任务上也取得了最优性能。

模型图像

预期用途与局限性

你可以使用此特定检查点进行实例分割。请查看[模型中心](https://huggingface.co/models?search=video - mask2former)，以查找此模型其他可能令你感兴趣的微调版本。

💻 使用示例

基础用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2019-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]