aimv2-1B-patch14-448开源视觉模型 - 多模态视觉理解精准高效

首页

Aimv2 1B Patch14 448

由 apple 开发

AIMv2 是通过多模态自回归目标预训练的视觉模型系列，在多个视觉理解基准测试中表现优异。

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇检测

下载量 71

发布时间 : 10/29/2024

模型简介

AIMv2 是一个高效的视觉模型，通过多模态自回归目标进行预训练，在图像分类、目标检测等任务中表现出色。

模型特点

多模态自回归预训练

采用多模态自回归目标进行预训练，提高了模型的泛化能力和性能。

高性能

在多个视觉理解基准测试中表现优于 CLIP 和 SigLIP 等模型。

高效扩展

预训练方法简单直接，能够高效扩展到更大规模的模型。

模型能力

图像特征提取

图像分类

多模态理解

使用案例

计算机视觉

图像分类

在 ImageNet-1k 等数据集上进行图像分类任务。

准确率 89.0%

开放词汇目标检测

在开放词汇目标检测任务中表现优于 DINOv2。

指代表达理解

在指代表达理解任务中表现优于 DINOv2。

🚀 图像特征提取模型transformers

本项目引入了基于多模态自回归目标预训练的AIMv2系列视觉模型。AIMv2预训练简单直接，能够有效进行训练和扩展。该模型在多个多模态理解基准测试中表现出色，在开放词汇目标检测和指代表达理解等任务上也有优秀的表现。

🚀 快速开始

本项目提供了transformers库，可用于图像特征提取。下面是使用该库的基本步骤。

✨ 主要特性

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解任务上，性能优于DINOv2。
具有强大的识别性能，AIMv2 - 3B在使用冻结主干的情况下，在ImageNet上达到了89.5%的准确率。

📦 安装指南

文档未提供具体安装步骤，可参考transformers库的官方文档进行安装。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 详细文档

模型信息

属性	详情
库名称	transformers
许可证	apple - amlr
评估指标	accuracy
任务类型	image - feature - extraction
标签	vision、image - feature - extraction、mlx、pytorch
模型名称	aimv2 - 1B - patch14 - 448

模型在不同数据集上的分类准确率

数据集名称	数据集类型	准确率	是否验证
imagenet - 1k	imagenet - 1k	89.0	false
inaturalist - 18	inaturalist - 18	83.8	false
cifar10	cifar10	99.4	false
cifar100	cifar100	94.1	false
food101	food101	97.2	false
dtd	dtd	88.9	false
oxford - pets	oxford - pets	97.1	false
stanford - cars	stanford - cars	96.6	false
camelyon17	camelyon17	93.5	false
patch - camelyon	patch - camelyon	89.9	false
rxrx1	rxrx1	9.2	false
eurosat	eurosat	99.1	false
fmow	fmow	65.9	false
domainnet - infographic	domainnet - infographic	74.4	false

引用信息

如果您觉得我们的工作有用，请考虑按以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}