V

Video Mask2former Swin Tiny Youtubevis 2021 Instance

由shivalikasingh開發
基於YouTubeVIS-2021數據集訓練的微型視頻實例分割模型,採用Swin Transformer骨幹網絡
下載量 22
發布時間 : 3/15/2023

模型概述

Video Mask2Former是Mask2Former的擴展版本,專為視頻實例分割任務設計,採用統一架構處理分割任務,通過預測掩碼及其對應標籤實現高性能分割

模型特點

統一分割架構
採用統一範式處理實例分割、語義分割和全景分割任務,將所有任務視為實例分割處理
改進的注意力機制
使用多尺度可變形注意力Transformer替換像素解碼器,並採用帶掩碼注意力的Transformer解碼器提升性能
高效訓練方法
通過基於採樣點計算損失而非整張掩碼,顯著提升訓練效率
視頻處理能力
在不修改架構的情況下,直接應用於視頻實例分割任務並達到最先進水平

模型能力

視頻實例分割
對象掩碼預測
多幀視頻分析

使用案例

視頻分析
視頻對象跟蹤與分割
對視頻中的對象進行實例分割和跟蹤
可生成逐幀的對象分割掩碼
自動駕駛場景理解
分析道路場景視頻,識別和分割各類交通參與者
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase