vision-perceiver-learned开源视觉感知器模型 - 基于预训练处理图像输入超实用

首页

Vision Perceiver Learned

由 deepmind 开发

基于ImageNet预训练的通用视觉感知器模型，采用学习型位置嵌入处理图像输入

图像分类

Transformers

开源协议:Apache-2.0 #图像分类 #多模态处理 #自注意力机制

下载量 1,894

发布时间 : 3/2/2022

模型简介

该模型是一种可应用于任何模态的Transformer编码器，特别针对图像分类任务设计，能够直接从像素值学习图像表示

模型特点

模态无关架构

可应用于文本、图像、音频、视频等多种数据模态

高效注意力机制

使用潜在向量降低计算复杂度，使注意力机制不受输入大小限制

学习型位置嵌入

仅使用学习的一维位置嵌入，不依赖图像二维结构的先验知识

灵活解码机制

可通过解码查询机制将潜在向量解码为任意大小和语义的输出

模型能力

图像分类

特征提取

使用案例

计算机视觉

图像分类

对输入图像进行1000类别的分类

在ImageNet-1k上达到72.7%的Top-1准确率

特征提取

提取图像特征用于下游任务

🚀 用于视觉的Perceiver IO（学习型位置嵌入）

Perceiver IO是一种可应用于任何模态（文本、图像、音频、视频等）的Transformer编码器模型。本模型在ImageNet（1400万张图像，1000个类别）上进行了预训练，分辨率为224x224。它由Jaegle等人在论文Perceiver IO: A General Architecture for Structured Inputs & Outputs中提出，并首次在此仓库中发布。

⚠️ 重要提示 本模型的原团队未为此模型编写模型卡片，此卡片由Hugging Face团队编写。

🚀 快速开始

你可以使用该原始模型进行图像分类任务。你也可以前往模型中心查找其他针对特定任务微调后的版本。

✨ 主要特性

多模态适用性：可以应用于文本、图像、音频、视频等多种模态。
高效的注意力机制：自注意力机制的时间和内存需求不依赖于输入大小。
灵活的解码方式：通过解码器查询，可灵活解码潜在向量的最终隐藏状态，以生成任意大小和语义的输出。

📦 安装指南

暂未提及具体安装步骤，可参考transformers库的安装方式。

💻 使用示例

基础用法

from transformers import PerceiverFeatureExtractor, PerceiverForImageClassificationLearned
import requests
from PIL import Image

feature_extractor = PerceiverFeatureExtractor.from_pretrained("deepmind/vision-perceiver-learned")
model = PerceiverForImageClassificationLearned.from_pretrained("deepmind/vision-perceiver-learned")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# prepare input
encoding = feature_extractor(image, return_tensors="pt")
inputs = encoding.pixel_values
# forward pass
outputs = model(inputs)
logits = outputs.logits
print("Predicted class:", model.config.id2label[logits.argmax(-1).item()])
>>> should print Predicted class: tabby, tabby cat

📚 详细文档

模型描述

Perceiver IO是一个Transformer编码器模型，可应用于任何模态（文本、图像、音频、视频等）。其核心思想是在一组规模不大的潜在向量（例如256或512）上使用自注意力机制，仅使用输入与潜在向量进行交叉注意力计算。这使得自注意力机制的时间和内存需求不依赖于输入的大小。

为了解码，作者采用了所谓的解码器查询，它允许灵活地解码潜在向量的最终隐藏状态，以生成任意大小和语义的输出。对于图像分类任务，输出是一个包含对数几率的张量，形状为 (batch_size, num_labels)。

Perceiver IO架构

Perceiver IO架构。

由于自注意力机制的时间和内存需求不依赖于输入的大小，Perceiver IO的作者可以直接在原始像素值上训练模型，而不是像ViT那样在图像块上训练。这个特定的模型仅在像素值上添加了学习型1D位置嵌入，因此它没有关于图像2D结构的先验信息。

通过对模型进行预训练，它学习到了图像的内部表示，可用于提取对下游任务有用的特征。例如，如果你有一个带标签的图像数据集，可以通过替换分类解码器来训练一个标准的分类器。

预期用途与局限性

你可以使用该原始模型进行图像分类。可前往模型中心查找其他针对特定任务微调后的版本。

训练数据

该模型在ImageNet上进行了预训练，这是一个包含1400万张图像和1000个类别的数据集。

训练过程

预处理

图像经过中心裁剪和调整大小至224x224的分辨率，并在RGB通道上进行归一化。在预训练过程中使用了数据增强，具体可参考论文的附录H。

预训练

超参数的详细信息可在论文的附录H中找到。

评估结果

尽管该模型没有关于图像2D结构的先验信息，但在ImageNet-1k上能够达到72.7的top-1准确率。

BibTeX引用

@article{DBLP:journals/corr/abs-2107-14795,
  author    = {Andrew Jaegle and
               Sebastian Borgeaud and
               Jean{-}Baptiste Alayrac and
               Carl Doersch and
               Catalin Ionescu and
               David Ding and
               Skanda Koppula and
               Daniel Zoran and
               Andrew Brock and
               Evan Shelhamer and
               Olivier J. H{\'{e}}naff and
               Matthew M. Botvinick and
               Andrew Zisserman and
               Oriol Vinyals and
               Jo{\~{a}}o Carreira},
  title     = {Perceiver {IO:} {A} General Architecture for Structured Inputs {\&}
               Outputs},
  journal   = {CoRR},
  volume    = {abs/2107.14795},
  year      = {2021},
  url       = {https://arxiv.org/abs/2107.14795},
  eprinttype = {arXiv},
  eprint    = {2107.14795},
  timestamp = {Tue, 03 Aug 2021 14:53:34 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2107-14795.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}