🚀 Data2Vec-Vision(大型模型,仅预训练)
Data2Vec-Vision 是一个基于 BEiT 架构的模型,它在 ImageNet-1k 数据集(包含 120 万张图像、1000 个类别)上以自监督的方式进行预训练,图像分辨率为 224x224。该模型由 Alexei Baevski、Wei-Ning Hsu 等人在论文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中提出,并首次在 此仓库 发布。
需注意,发布该模型的 Facebook 团队并未撰写模型卡片,此模型卡片由 Hugging Face 团队编写。
🚀 快速开始
你可以直接使用该预训练模型进行图像分类任务。若想寻找针对特定任务微调后的版本,可访问 模型中心。
✨ 主要特性
- 通用自监督学习框架:data2vec 提供了一个通用的自监督学习框架,可应用于语音、自然语言处理和计算机视觉等多个领域。
- 自蒸馏预测:核心思想是在自蒸馏设置中,基于输入的掩码视图预测完整输入数据的潜在表示,使用标准的 Transformer 架构。
- 上下文潜在表示:与预测局部的特定模态目标(如单词、视觉标记或人类语音单元)不同,data2vec 预测包含整个输入信息的上下文潜在表示。
📚 详细文档
预训练方法

更多详细信息,请参考 官方论文。
摘要
自监督学习的总体思想在不同模态之间是相同的,但实际的算法和目标却有很大差异,因为它们是针对单一模态开发的。为了更接近通用的自监督学习,我们提出了 data2vec 框架,该框架对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在自蒸馏设置中,使用标准的 Transformer 架构,基于输入的掩码视图预测完整输入数据的潜在表示。与预测局部的特定模态目标(如单词、视觉标记或人类语音单元)不同,data2vec 预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解等主要基准测试上的实验表明,该方法达到了新的技术水平,或与主流方法具有竞争力。
预期用途和限制
该模型可用于图像分类任务。你可以在 模型中心 查找针对特定任务微调后的版本。
训练数据
BEiT 模型在 ImageNet-1k 数据集上进行预训练,该数据集包含 120 万张图像和 1000 个类别。
训练过程
预处理
训练/验证期间图像预处理的具体细节可参考 此处。
图像会被调整大小/缩放至相同的分辨率(224x224),并在 RGB 通道上进行归一化处理,均值为 (0.5, 0.5, 0.5),标准差为 (0.5, 0.5, 0.5)。
预训练
所有与预训练相关的超参数,请参考 原论文 和 原代码库。
评估结果
关于多个图像分类基准测试的评估结果,请参考原论文中的表 1。需要注意的是,在微调时,较高的分辨率可以获得更好的结果。当然,增大模型规模也会提高性能。
📄 许可证
本模型采用 Apache-2.0 许可证。
BibTeX 引用信息
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
属性 |
详情 |
模型类型 |
用于图像分类的预训练 BEiT 模型 |
训练数据 |
ImageNet-1k 数据集,包含 120 万张图像和 1000 个类别 |