aimv2-huge-patch14-224开源视觉模型 - 多模态预训练助力优异基准测试表现

首页

Aimv2 Huge Patch14 224

由 apple 开发

AIMv2 是通过多模态自回归目标预训练的视觉模型系列，在多项基准测试中表现优异。

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇目标检测

下载量 54

发布时间 : 10/29/2024

模型简介

AIMv2 是一种先进的视觉模型，采用多模态自回归预训练方法，在图像分类和特征提取任务中表现出色。

模型特点

多模态自回归预训练

采用创新的多模态自回归目标进行预训练，提升模型性能

卓越的基准测试表现

在多个视觉基准测试中优于CLIP、SigLIP和DINOv2等模型

大规模扩展能力

预训练方法简单直接，能有效扩展训练规模

模型能力

图像分类

图像特征提取

多模态理解

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

图像分类

在ImageNet等数据集上进行高精度图像分类

在ImageNet-1k上达到87.5%准确率

细粒度分类

对特定领域的细粒度图像分类

在stanford-cars上达到96.4%准确率

医学图像分析

医学图像分类和分析

在camelyon17上达到93.3%准确率

多模态应用

开放词汇目标检测

检测图像中未在训练集中明确标注的物体

性能优于DINOv2

指代表达理解

理解自然语言指代表达并定位图像中的对应区域

性能优于DINOv2

🚀 图像特征提取模型transformers

本项目引入了基于多模态自回归目标进行预训练的AIMv2视觉模型家族。AIMv2预训练简单直接，能够有效进行训练和扩展。其在多数多模态理解基准测试中表现出色，在开放词汇目标检测和指代表达理解任务中也有优异表现。

🚀 快速开始

项目介绍

[AIMv2论文] [BibTeX]

我们推出了AIMv2系列视觉模型，该系列模型通过多模态自回归目标进行预训练。AIMv2的预训练过程简单直接，能够有效进行训练和扩展。AIMv2的一些亮点包括：

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解方面，性能优于DINOv2。
展现出强大的识别性能，AIMv2 - 3B在使用冻结主干的情况下，在ImageNet上达到了*89.5%的准确率。

AIMv2概述

✨ 主要特性

多模态理解能力强：在多数多模态理解基准测试中，超越OAI CLIP和SigLIP。
开放词汇任务表现优：在开放词汇目标检测和指代表达理解任务上，优于DINOv2。
识别性能出色：AIMv2 - 3B在使用冻结主干时，在ImageNet上能达到较高准确率。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 详细文档

模型指标

属性	详情
库名称	transformers
许可证	apple - amlr
评估指标	准确率
任务类型	图像特征提取
标签	视觉、图像特征提取、mlx、pytorch

模型表现

数据集	准确率
imagenet - 1k	87.5
inaturalist - 18	77.9
cifar10	99.3
cifar100	93.5
food101	96.3
dtd	88.2
oxford - pets	96.6
stanford - cars	96.4
camelyon17	93.3
patch - camelyon	89.3
rxrx1	5.8
eurosat	98.5
fmow	62.2
domainnet - infographic	70.4

📄 许可证

本项目使用的许可证为apple - amlr。

📚 引用

如果您觉得我们的工作有用，请考虑按以下方式引用我们：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}