aimv2-3B-patch14-336开源视觉模型 - 多模态理解表现优异助力应用

首页

Aimv2 3B Patch14 336

由 apple 开发

AIMv2 是一个通过多模态自回归目标预训练的视觉模型系列，在多个多模态理解基准测试中表现优异。

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇目标检测

下载量 23

发布时间 : 10/29/2024

模型简介

AIMv2 是一种高效的视觉模型，通过多模态自回归目标进行预训练，在图像分类、目标检测等任务中表现出色。

模型特点

多模态自回归预训练

采用多模态自回归目标进行预训练，提升模型理解能力

高性能表现

在多个基准测试中优于CLIP、SigLIP和DINOv2等模型

大规模扩展能力

预训练方法简单直接，能有效扩展训练规模

模型能力

图像特征提取

图像分类

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

图像分类

在ImageNet等数据集上进行高精度图像分类

ImageNet-1k准确率89.2%

细粒度分类

在特定领域数据集如stanford-cars上进行分类

stanford-cars准确率96.6%

医学影像

病理图像分析

在camelyon17等医学影像数据集上进行分析

camelyon17准确率93.2%

🚀 transformers

transformers库引入了基于多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2预训练简单直接，易于训练和有效扩展。该模型在多个多模态理解基准测试中表现出色，具有强大的识别性能。

🚀 快速开始

安装

文档中未提及安装步骤，若要使用transformers库，可通过以下命令安装：

pip install transformers

使用示例

基础用法

以下是使用PyTorch调用模型的示例代码：

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高级用法

以下是使用JAX调用模型的示例代码：

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

✨ 主要特性

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解任务中，性能优于DINOv2。
AIMv2 - 3B模型在使用冻结主干的情况下，在ImageNet上的识别准确率达到89.5%。

📚 详细文档

模型信息

属性	详情
库名称	transformers
许可证	apple - amlr
评估指标	accuracy
任务类型	image - feature - extraction
标签	vision、image - feature - extraction、mlx、pytorch

模型性能

模型aimv2 - 3B - patch14 - 336在多个数据集上的分类准确率如下：

数据集名称	数据集类型	准确率	是否验证
imagenet - 1k	imagenet - 1k	89.2	false
inaturalist - 18	inaturalist - 18	84.4	false
cifar10	cifar10	99.5	false
cifar100	cifar100	94.4	false
food101	food101	97.2	false
dtd	dtd	89.3	false
oxford - pets	oxford - pets	97.2	false
stanford - cars	stanford - cars	96.6	false
camelyon17	camelyon17	93.2	false
patch - camelyon	patch - camelyon	89.3	false
rxrx1	rxrx1	8.8	false
eurosat	eurosat	99.0	false
fmow	fmow	65.7	false
domainnet - infographic	domainnet - infographic	74.0	false

引用信息

[AIMv2 Paper] [BibTeX]

如果您觉得我们的工作有用，请考虑引用以下内容：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}