V

Videomae Base

由MCG-NJU開發
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過預測被掩碼視頻塊的像素值學習視頻內部表示。
下載量 48.66k
發布時間 : 8/3/2022

模型概述

該模型是掩碼自編碼器在視頻領域的擴展,採用視覺Transformer架構,頂部添加解碼器用於預測被掩碼塊的像素值。主要用於視頻特徵提取和下游任務微調。

模型特點

視頻自監督學習
通過掩碼視頻塊預測任務實現無監督預訓練,減少對標註數據的依賴
高效數據利用
相比傳統方法,能在較少數據情況下學習有效視頻表示
靈活下游應用
預訓練模型可微調用於各種視頻理解任務

模型能力

視頻特徵提取
掩碼塊像素預測
視頻表示學習

使用案例

視頻理解
視頻分類
在預訓練模型頂部添加分類層進行微調
動作識別
利用學習到的視頻表示識別特定動作
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase