V

Video Mask2former Swin Large Youtubevis 2021 Instance

Developed by shivalikasingh
基於YouTubeVIS-2021數據集訓練的視頻實例分割模型,採用Swin Transformer骨幹網絡和Mask2Former統一分割架構
Downloads 52
Release Time : 3/22/2023

Model Overview

該模型通過預測一組掩碼及對應標籤實現視頻實例分割,採用Transformer架構統一處理分割任務,在性能和效率上超越前代模型

Model Features

統一分割架構
將實例分割、語義分割和全景分割統一視為實例分割問題處理
高效注意力機制
採用多尺度可變形注意力Transformer替代傳統像素解碼器
掩碼注意力解碼器
引入帶掩碼注意力的Transformer解碼器提升性能而不增加計算量
高效訓練策略
通過在採樣點上計算損失而非整張掩碼,顯著提升訓練效率

Model Capabilities

視頻實例分割
多目標跟蹤
動態場景分析

Use Cases

視頻分析
自動駕駛場景理解
即時分析道路場景中的動態物體實例
可準確分割並跟蹤移動車輛、行人等目標
視頻監控
監控視頻中的多目標檢測與跟蹤
支持長時間跨幀的實例一致性保持
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase