VideoMAEv2-Base开源视频特征提取模型 - 免费助力视频特征轻松提取

首页

Videomaev2 Base

由 OpenGVLab 开发

VideoMAEv2-Base是基于自监督学习的视频特征提取模型，采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。

视频处理

Safetensors

#视频特征提取 #自监督学习 #双重掩码机制

下载量 3,565

发布时间 : 1/14/2025

模型简介

该模型通过自监督方式学习视频特征表示，可用于视频分类等下游任务。

模型特点

双重掩码机制

采用创新的双重掩码策略提升视频表示学习效果

自监督预训练

在UnlabeldHybrid-1M数据集上通过自监督方式预训练

视频特征提取

专门针对视频数据优化的特征提取能力

模型能力

视频特征提取

视频表示学习

使用案例

视频分析

视频分类

提取视频特征用于分类任务

视频检索

基于内容的视频检索系统

🚀 VideoMAE-v2（基础大小模型，在UnlabeledHybrid-1M上预训练）

VideoMAE-v2是一个基于自监督学习的视频分类模型，在UnlabeledHybrid-1M数据集上进行了800个epoch的预训练。该模型由Wang等人在论文[CVPR23]VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking中提出，并首次在GitHub上发布。

🚀 快速开始

预期用途与限制

你可以使用该原始模型进行视频特征提取。

使用方法

以下是如何使用此模型提取视频特征的示例代码：

from transformers import VideoMAEImageProcessor, AutoModel, AutoConfig
import numpy as np
import torch


config = AutoConfig.from_pretrained("OpenGVLab/VideoMAEv2-Base", trust_remote_code=True)
processor = VideoMAEImageProcessor.from_pretrained("OpenGVLab/VideoMAEv2-Base")
model = AutoModel.from_pretrained('OpenGVLab/VideoMAEv2-Base', config=config, trust_remote_code=True)


video = list(np.random.rand(16, 3, 224, 224))

# B, T, C, H, W -> B, C, T, H, W
inputs = processor(video, return_tensors="pt")
inputs['pixel_values'] = inputs['pixel_values'].permute(0, 2, 1, 3, 4)

with torch.no_grad():
  outputs = model(**inputs)

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用信息

如果你在研究中使用了该模型，请使用以下BibTeX条目进行引用：

@InProceedings{wang2023videomaev2,
    author    = {Wang, Limin and Huang, Bingkun and Zhao, Zhiyu and Tong, Zhan and He, Yinan and Wang, Yi and Wang, Yali and Qiao, Yu},
    title     = {VideoMAE V2: Scaling Video Masked Autoencoders With Dual Masking},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023},
    pages     = {14549-14560}
}

@misc{videomaev2,
      title={VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking},
      author={Limin Wang and Bingkun Huang and Zhiyu Zhao and Zhan Tong and Yinan He and Yi Wang and Yali Wang and Yu Qiao},
      year={2023},
      eprint={2303.16727},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}