data2vec-vision-large开源图像分类模型 - 免费部署助力图像分类任务

首页

Data2vec Vision Large

由 facebook 开发

Data2Vec-Vision是基于BEiT架构的自监督学习模型，在ImageNet-1k数据集上预训练，适用于图像分类任务。

图像分类

Transformers

开源协议:Apache-2.0 #自监督学习 #多模态通用框架 #图像上下文预测

下载量 225

发布时间 : 4/14/2022

模型简介

该模型采用data2vec框架，通过自蒸馏方式学习图像数据的潜在表示，支持计算机视觉任务。

模型特点

通用自监督学习框架

采用统一的data2vec框架处理多模态任务，包括语音、视觉和语言

上下文潜在表示预测

不同于预测局部特征，模型预测包含完整输入信息的上下文表示

高性能表现

在多个基准测试中达到新的最优性能或与主流方法竞争的表现

模型能力

图像分类

视觉特征提取

使用案例

计算机视觉

图像分类

对图像进行1000个类别的分类

在ImageNet-1k基准测试中表现优异

🚀 Data2Vec-Vision（大型模型，仅预训练）

Data2Vec-Vision 是一个基于 BEiT 架构的模型，它在 ImageNet-1k 数据集（包含 120 万张图像、1000 个类别）上以自监督的方式进行预训练，图像分辨率为 224x224。该模型由 Alexei Baevski、Wei-Ning Hsu 等人在论文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中提出，并首次在此仓库发布。

需注意，发布该模型的 Facebook 团队并未撰写模型卡片，此模型卡片由 Hugging Face 团队编写。

🚀 快速开始

你可以直接使用该预训练模型进行图像分类任务。若想寻找针对特定任务微调后的版本，可访问模型中心。

✨ 主要特性

通用自监督学习框架：data2vec 提供了一个通用的自监督学习框架，可应用于语音、自然语言处理和计算机视觉等多个领域。
自蒸馏预测：核心思想是在自蒸馏设置中，基于输入的掩码视图预测完整输入数据的潜在表示，使用标准的 Transformer 架构。
上下文潜在表示：与预测局部的特定模态目标（如单词、视觉标记或人类语音单元）不同，data2vec 预测包含整个输入信息的上下文潜在表示。

📚 详细文档

预训练方法

模型图片

更多详细信息，请参考官方论文。

摘要

自监督学习的总体思想在不同模态之间是相同的，但实际的算法和目标却有很大差异，因为它们是针对单一模态开发的。为了更接近通用的自监督学习，我们提出了 data2vec 框架，该框架对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在自蒸馏设置中，使用标准的 Transformer 架构，基于输入的掩码视图预测完整输入数据的潜在表示。与预测局部的特定模态目标（如单词、视觉标记或人类语音单元）不同，data2vec 预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解等主要基准测试上的实验表明，该方法达到了新的技术水平，或与主流方法具有竞争力。

预期用途和限制

该模型可用于图像分类任务。你可以在模型中心查找针对特定任务微调后的版本。

训练数据

BEiT 模型在 ImageNet-1k 数据集上进行预训练，该数据集包含 120 万张图像和 1000 个类别。

训练过程

预处理

训练/验证期间图像预处理的具体细节可参考此处。

图像会被调整大小/缩放至相同的分辨率（224x224），并在 RGB 通道上进行归一化处理，均值为 (0.5, 0.5, 0.5)，标准差为 (0.5, 0.5, 0.5)。

预训练

所有与预训练相关的超参数，请参考原论文和原代码库。

评估结果

关于多个图像分类基准测试的评估结果，请参考原论文中的表 1。需要注意的是，在微调时，较高的分辨率可以获得更好的结果。当然，增大模型规模也会提高性能。

📄 许可证

本模型采用 Apache-2.0 许可证。

BibTeX 引用信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}