V

Videomae Large

Developed by MCG-NJU
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测掩码视频块的像素值学习视频表征
Downloads 3,243
Release Time : 8/2/2022

Model Overview

该模型采用视觉Transformer架构,通过自监督方式在Kinetics-400数据集上预训练,适用于视频理解任务的特征提取

Model Features

视频自监督学习
采用掩码自编码框架,无需人工标注即可学习视频表征
高效数据利用
相比全监督方法,显著减少对标注数据的依赖
Transformer架构
基于视觉Transformer的编码器-解码器结构,适合处理视频序列数据

Model Capabilities

视频特征提取
掩码像素预测
视频表征学习

Use Cases

视频理解
视频分类
在预训练模型基础上微调用于视频分类任务
动作识别
提取视频特征用于人类动作识别
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase