V

Video Mask2former Swin Tiny Youtubevis 2019 Instance

由shivalikasingh開發
基於YouTubeVIS-2019數據集訓練的微型視頻實例分割模型,採用Swin Transformer骨幹網絡和Mask2Former統一分割架構
下載量 19
發布時間 : 3/15/2023

模型概述

該模型是Mask2Former在視頻實例分割任務上的實現,通過預測一組掩碼及其對應標籤來處理視頻中的對象分割問題,無需修改架構即可適應視頻數據

模型特點

統一分割架構
將實例分割、語義分割和全景分割統一為掩碼預測問題,使用相同架構處理
多尺度可變形注意力
採用先進的多尺度可變形注意力機制替代傳統像素解碼器,提升特徵提取效率
掩碼注意力解碼器
創新的帶掩碼注意力的Transformer解碼器設計,在不增加計算量的情況下提升性能
高效訓練策略
通過基於採樣點而非完整掩碼計算損失,顯著提高訓練效率

模型能力

視頻對象實例分割
多對象跟蹤與分割
視頻場景理解

使用案例

視頻分析
自動駕駛場景理解
識別和分割道路場景中的車輛、行人等動態對象
可實現視頻中多對象的連續跟蹤與精確分割
視頻編輯與特效
自動分離視頻中的前景對象以便進行特效處理
提供精確的對象掩碼支持高級視頻編輯
監控與安防
智能監控分析
即時檢測和跟蹤監控視頻中的可疑對象
支持多目標同時跟蹤與行為分析
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase