vision-perceiver-conv开源视觉感知器模型 - 免费支持图像分类任务

首页

Vision Perceiver Conv

由 deepmind 开发

基于ImageNet预训练的通用视觉感知器模型，采用卷积预处理和Transformer架构，支持图像分类任务

图像分类

Transformers

开源协议:Apache-2.0 #多模态Transformer #像素级处理 #ImageNet分类

下载量 7,127

发布时间 : 3/2/2022

模型简介

感知器IO是一种跨模态Transformer模型，通过潜在向量机制实现与输入尺寸无关的计算效率，特别适合处理高分辨率图像

模型特点

模态无关架构

采用潜在向量机制，使模型可应用于文本、图像、音频等多种数据类型

高效计算

自注意力计算仅依赖固定数量的潜在向量，不受输入数据规模影响

像素级处理

直接处理原始像素值，无需像ViT那样进行图像分块预处理

灵活解码

通过解码查询机制可输出任意尺寸和语义的结构化数据

模型能力

图像分类

视觉特征提取

使用案例

计算机视觉

图像分类

对输入图像进行1000类别的分类识别

ImageNet-1k上达到82.1% Top-1准确率

特征提取

提取图像特征用于下游任务微调

🚀 用于视觉的Perceiver IO（卷积处理）

Perceiver IO是一种可应用于任何模态（文本、图像、音频、视频等）的Transformer编码器模型。本模型在分辨率为224x224的ImageNet（1400万张图像，1000个类别）上进行了预训练。它由Jaegle等人在论文Perceiver IO: A General Architecture for Structured Inputs & Outputs中提出，并首次在此仓库中发布。

声明：发布Perceiver IO的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

多模态适用性：可应用于文本、图像、音频、视频等多种模态。
高效的注意力机制：通过对少量潜在向量应用自注意力机制，使时间和内存需求不依赖于输入大小。
灵活的解码方式：使用解码器查询，可灵活解码潜在向量的最终隐藏状态，以产生任意大小和语义的输出。

📚 详细文档

模型描述

Perceiver IO是一个Transformer编码器模型，其核心思想是在一组数量不大的潜在向量（例如256或512）上应用自注意力机制，仅使用输入与潜在向量进行交叉注意力计算。这样，自注意力机制的时间和内存需求就不依赖于输入的大小。

为了解码，作者采用了所谓的解码器查询，它可以灵活地将潜在向量的最终隐藏状态解码为任意大小和语义的输出。对于图像分类任务，输出是一个包含对数概率的张量，形状为(batch_size, num_labels)。

Perceiver IO架构

Perceiver IO架构。

由于自注意力机制的时间和内存需求不依赖于输入大小，Perceiver IO的作者可以直接在原始像素值上训练模型，而不是像ViT那样在图像块上训练。这个特定的模型在使用输入与潜在向量进行交叉注意力计算之前，会在像素值上应用一个简单的2D卷积+最大池化预处理网络。

通过对模型进行预训练，它可以学习到图像的内部表示，这些表示可用于提取对下游任务有用的特征。例如，如果你有一个带标签的图像数据集，可以通过替换分类解码器来训练一个标准的分类器。

预期用途和限制

你可以使用原始模型进行图像分类。请查看模型中心，以寻找其他可能符合你需求的微调版本。

训练数据

该模型在ImageNet数据集上进行了预训练，该数据集包含1400万张图像和1000个类别。

训练过程

预处理

图像会进行中心裁剪并调整为224x224的分辨率，并在RGB通道上进行归一化。请注意，在预训练期间使用了数据增强，具体细节可参考论文Perceiver IO: A General Architecture for Structured Inputs & Outputs的附录H。

预训练

超参数的详细信息可在论文Perceiver IO: A General Architecture for Structured Inputs & Outputs的附录H中找到。

评估结果

该模型在ImageNet-1k上能够达到82.1的top-1准确率。

💻 使用示例

基础用法

以下是如何在PyTorch中使用此模型的示例：

from transformers import PerceiverFeatureExtractor, PerceiverForImageClassificationConvProcessing
import requests
from PIL import Image

feature_extractor = PerceiverFeatureExtractor.from_pretrained("deepmind/vision-perceiver-conv")
model = PerceiverForImageClassificationConvProcessing.from_pretrained("deepmind/vision-perceiver-conv")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# 准备输入
inputs = feature_extractor(image, return_tensors="pt").pixel_values
# 前向传播
outputs = model(inputs)
logits = outputs.logits
print("Predicted class:", model.config.id2label[logits.argmax(-1).item()])
>>> 应该输出 Predicted class: tabby, tabby cat

📄 许可证

本项目采用Apache-2.0许可证。

BibTeX引用

@article{DBLP:journals/corr/abs-2107-14795,
  author    = {Andrew Jaegle and
               Sebastian Borgeaud and
               Jean{-}Baptiste Alayrac and
               Carl Doersch and
               Catalin Ionescu and
               David Ding and
               Skanda Koppula and
               Daniel Zoran and
               Andrew Brock and
               Evan Shelhamer and
               Olivier J. H{\'{e}}naff and
               Matthew M. Botvinick and
               Andrew Zisserman and
               Oriol Vinyals and
               Jo{\~{a}}o Carreira},
  title     = {Perceiver {IO:} {A} General Architecture for Structured Inputs {\&}
               Outputs},
  journal   = {CoRR},
  volume    = {abs/2107.14795},
  year      = {2021},
  url       = {https://arxiv.org/abs/2107.14795},
  eprinttype = {arXiv},
  eprint    = {2107.14795},
  timestamp = {Tue, 03 Aug 2021 14:53:34 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2107-14795.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}