aimv2-3B-patch14-224开源视觉模型 - 多模态预训练实现多项测试优异表现

首页

Aimv2 3B Patch14 224

由 apple 开发

AIMv2是通过多模态自回归目标预训练的视觉模型系列，在多项基准测试中表现优异

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇目标检测

下载量 57

发布时间 : 10/29/2024

模型简介

AIMv2是一个强大的视觉模型，通过多模态自回归目标进行预训练，在图像分类和理解任务中表现出色

模型特点

多模态自回归预训练

采用创新的多模态自回归目标进行预训练，提高模型理解能力

卓越的分类性能

在ImageNet等多项基准测试中达到顶尖准确率

大规模参数

3B参数的强大模型，能够捕捉更丰富的视觉特征

模型能力

图像特征提取

图像分类

多模态理解

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

通用图像分类

在ImageNet等标准数据集上进行图像分类

ImageNet-1k准确率88.5%

细粒度分类

在stanford-cars等细粒度分类任务中的应用

stanford-cars准确率96.5%

医学图像分析

在camelyon17等医学图像数据集上的应用

camelyon17准确率93.5%

🚀 图像特征提取模型AIMv2

AIMv2是一系列基于多模态自回归目标进行预训练的视觉模型，训练过程简单直接，可有效扩展。该模型在多模态理解基准测试中表现出色，在多个分类任务上展现了高准确率。

🚀 快速开始

AIMv2是一系列通过多模态自回归目标进行预训练的视觉模型。AIMv2预训练简单直接，能够有效进行训练和扩展。以下是AIMv2的一些亮点：

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇对象检测和指代表达理解方面，性能优于DINOv2。
展现出强大的识别性能，AIMv2 - 3B在使用冻结主干网络的情况下，在ImageNet上达到了89.5%的准确率。

AIMv2概述

✨ 主要特性

多模态理解出色：在多模态理解基准测试中超越OAI CLIP和SigLIP。
开放词汇任务表现佳：在开放词汇对象检测和指代表达理解上优于DINOv2。
高识别准确率：AIMv2 - 3B在ImageNet上使用冻结主干网络时准确率达89.5%。

📦 安装指南

文档未提及安装步骤，可参考transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 详细文档

模型信息

属性	详情
库名称	transformers
许可证	apple - amlr
评估指标	accuracy
任务类型	图像特征提取
标签	vision、image - feature - extraction、mlx、pytorch
模型名称	aimv2 - 3B - patch14 - 224

模型性能

任务类型	数据集名称	准确率	是否验证
分类	imagenet - 1k	88.5%	否
分类	inaturalist - 18	81.5%	否
分类	cifar10	99.5%	否
分类	cifar100	94.3%	否
分类	food101	96.8%	否
分类	dtd	88.9%	否
分类	oxford - pets	97.1%	否
分类	stanford - cars	96.5%	否
分类	camelyon17	93.5%	否
分类	patch - camelyon	89.4%	否
分类	rxrx1	7.3%	否
分类	eurosat	99.0%	否
分类	fmow	64.2%	否
分类	domainnet - infographic	72.2%	否

📄 许可证

本项目使用apple - amlr许可证。

📖 引用

如果您觉得我们的工作有用，请考虑按以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}