VideoMAE-base-short-ssv2開源視頻模型 - 助力視頻自監督預訓練，免費好用！

首頁

Videomae Base Short Ssv2

由MCG-NJU開發

VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型，在Something-Something-v2數據集上進行了800輪預訓練。

視頻處理

Transformers

#視頻掩碼自編碼 #自監督預訓練 #時空特徵學習

下載量 112

發布時間 : 8/2/2022

模型概述

該模型通過自監督方式學習視頻內部表徵，主要用於下游任務的微調，如視頻分類等。

模型特點

視頻自監督學習

採用掩碼自編碼器(MAE)方法進行視頻自監督預訓練，無需標註數據

高效預訓練

在Something-Something-v2數據集上進行了800輪預訓練，學習視頻內部表徵

下游任務適配

預訓練模型可通過微調適配各種視頻理解任務

模型能力

視頻特徵提取

自監督學習

視頻表徵學習

使用案例

視頻理解

視頻分類

在預訓練模型基礎上微調，用於視頻內容分類

行為識別

可用於視頻中人類行為識別任務

🚀 VideoMAE（基礎尺寸模型，僅預訓練）

VideoMAE 模型在 Something-Something-v2 數據集上以自監督方式預訓練了 800 個週期。該模型由 Tong 等人在論文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 中提出，並首次在此倉庫中發佈。

免責聲明：發佈 VideoMAE 的團隊未為此模型編寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

✨ 主要特性

VideoMAE 是 Masked Autoencoders (MAE) 在視頻領域的擴展，模型架構與標準的視覺變換器（ViT）非常相似，頂部有一個解碼器用於預測掩碼塊的像素值。
通過預訓練，模型學習到視頻的內部表示，可用於提取對下游任務有用的特徵。

📚 詳細文檔

模型描述

VideoMAE 將視頻表示為固定大小的塊（分辨率 16x16）序列，並進行線性嵌入。在序列開頭添加一個 [CLS] 標記用於分類任務，在將序列輸入到 Transformer 編碼器層之前，還添加了固定的正弦/餘弦位置嵌入。

通過預訓練，模型學習到視頻的內部表示，可用於提取對下游任務有用的特徵。例如，如果有一個帶標籤的視頻數據集，可以在預訓練的編碼器頂部放置一個線性層來訓練一個標準分類器。通常在 [CLS] 標記頂部放置一個線性層，因為該標記的最後隱藏狀態可以看作是整個視頻的表示。

預期用途和限制

可以使用原始模型來預測視頻掩碼塊的像素值，但它主要用於在下游任務上進行微調。請參閱模型中心以查找針對你感興趣的任務進行微調的版本。

如何使用

以下是如何使用此模型預測隨機掩碼塊的像素值：

from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch

num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base-short-ssv2")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base-short-ssv2")

pixel_values = processor(video, return_tensors="pt").pixel_values

num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()

outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss

更多代碼示例，請參考文檔。

訓練數據

（待補充，歡迎提交 PR）

訓練過程

預處理

（待補充，歡迎提交 PR）

預訓練

（待補充，歡迎提交 PR）

評估結果

（待補充，歡迎提交 PR）

BibTeX 引用信息

misc{https://doi.org/10.48550/arxiv.2203.12602,
  doi = {10.48550/ARXIV.2203.12602},
  url = {https://arxiv.org/abs/2203.12602},
  author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution 4.0 International}
}