V

Videomae Base Short

由MCG-NJU開發
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過掩碼補丁預測學習視頻內部表示,適用於下游視頻分類等任務。
下載量 886
發布時間 : 7/7/2022

模型概述

該模型是掩碼自編碼器在視頻領域的擴展,採用標準視覺Transformer架構,頂部添加解碼器用於預測被掩碼補丁的像素值。主要用於視頻特徵提取和下游任務微調。

模型特點

視頻自監督學習
採用掩碼自編碼器框架,通過預測被掩碼視頻補丁進行自監督預訓練
數據高效
相比全監督方法,能在較少標註數據情況下學習有效視頻表示
Transformer架構
基於標準視覺Transformer架構,具有良好的可擴展性和遷移能力

模型能力

視頻特徵提取
視頻表示學習
掩碼補丁預測

使用案例

視頻理解
視頻分類
在預訓練模型基礎上微調用於視頻分類任務
動作識別
可用於視頻中人類動作識別任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase