V

Videomae Large

由MCG-NJU開發
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過預測掩碼視頻塊的像素值學習視頻表徵
下載量 3,243
發布時間 : 8/2/2022

模型概述

該模型採用視覺Transformer架構,通過自監督方式在Kinetics-400數據集上預訓練,適用於視頻理解任務的特徵提取

模型特點

視頻自監督學習
採用掩碼自編碼框架,無需人工標註即可學習視頻表徵
高效數據利用
相比全監督方法,顯著減少對標註數據的依賴
Transformer架構
基於視覺Transformer的編碼器-解碼器結構,適合處理視頻序列數據

模型能力

視頻特徵提取
掩碼像素預測
視頻表徵學習

使用案例

視頻理解
視頻分類
在預訓練模型基礎上微調用於視頻分類任務
動作識別
提取視頻特徵用於人類動作識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase