V

Video Mask2former Swin Large Youtubevis 2021 Instance

由shivalikasingh開發
基於YouTubeVIS-2021數據集訓練的視頻實例分割模型,採用Swin Transformer骨幹網絡和Mask2Former統一分割架構
下載量 52
發布時間 : 3/22/2023

模型概述

該模型通過預測一組掩碼及對應標籤實現視頻實例分割,採用Transformer架構統一處理分割任務,在性能和效率上超越前代模型

模型特點

統一分割架構
將實例分割、語義分割和全景分割統一視為實例分割問題處理
高效注意力機制
採用多尺度可變形注意力Transformer替代傳統像素解碼器
掩碼注意力解碼器
引入帶掩碼注意力的Transformer解碼器提升性能而不增加計算量
高效訓練策略
通過在採樣點上計算損失而非整張掩碼,顯著提升訓練效率

模型能力

視頻實例分割
多目標跟蹤
動態場景分析

使用案例

視頻分析
自動駕駛場景理解
即時分析道路場景中的動態物體實例
可準確分割並跟蹤移動車輛、行人等目標
視頻監控
監控視頻中的多目標檢測與跟蹤
支持長時間跨幀的實例一致性保持
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase