V

Videomae Base Short

Developed by MCG-NJU
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过掩码补丁预测学习视频内部表示,适用于下游视频分类等任务。
Downloads 886
Release Time : 7/7/2022

Model Overview

该模型是掩码自编码器在视频领域的扩展,采用标准视觉Transformer架构,顶部添加解码器用于预测被掩码补丁的像素值。主要用于视频特征提取和下游任务微调。

Model Features

视频自监督学习
采用掩码自编码器框架,通过预测被掩码视频补丁进行自监督预训练
数据高效
相比全监督方法,能在较少标注数据情况下学习有效视频表示
Transformer架构
基于标准视觉Transformer架构,具有良好的可扩展性和迁移能力

Model Capabilities

视频特征提取
视频表示学习
掩码补丁预测

Use Cases

视频理解
视频分类
在预训练模型基础上微调用于视频分类任务
动作识别
可用于视频中人类动作识别任务
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase