aimv2-huge-patch14-336开源视觉模型 - 多模态预训练，助力视觉理解！

首页

Aimv2 Huge Patch14 336

由 apple 开发

AIMv2 是通过多模态自回归目标预训练的视觉模型系列，在多个视觉理解基准测试中表现优异。

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇目标检测

下载量 188

发布时间 : 10/29/2024

模型简介

AIMv2 是一种高效的视觉模型，采用多模态自回归目标预训练方法，适用于图像分类和特征提取任务。

模型特点

多模态自回归预训练

采用创新的多模态自回归目标进行预训练，提升模型性能。

卓越的基准测试表现

在多个视觉理解基准测试中优于 CLIP 和 SigLIP 等模型。

强大的识别性能

在 ImageNet 等数据集上达到高准确率。

模型能力

图像分类

图像特征提取

多模态理解

使用案例

计算机视觉

图像分类

对图像进行分类，支持多种数据集。

在 ImageNet-1k 上达到 88.2% 准确率

细粒度分类

对特定领域的图像进行细粒度分类。

在 Stanford Cars 上达到 96.4% 准确率

医疗影像

病理图像分析

用于医疗影像的分类和分析。

在 Camelyon17 上达到 93.3% 准确率

🚀 图像特征提取库transformers

transformers是一个用于图像特征提取的库，它引入了基于多模态自回归目标预训练的AIMv2系列视觉模型。该模型预训练简单直接，能有效进行训练和扩展，在多个多模态理解基准测试中表现出色。

🚀 快速开始

简介

[AIMv2论文] [BibTeX]

我们引入了通过多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2的预训练过程简单直接，并且能够有效地进行训练和扩展。AIMv2的一些亮点包括：

在大多数多模态理解基准测试中优于OAI CLIP和SigLIP。
在开放词汇对象检测和指代表达理解方面优于DINOv2。
展现出强大的识别性能，AIMv2 - 3B在使用冻结主干的情况下在ImageNet上达到了*89.5%的准确率。

AIMv2概述

📦 安装指南

文档未提供安装步骤，跳过此章节。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 详细文档

模型指标

属性	详情
库名称	transformers
许可证	apple - amlr
评估指标	准确率
任务类型	图像特征提取
标签	视觉、图像特征提取、mlx、pytorch

模型结果

模型名称	任务类型	数据集	准确率	验证状态
aimv2 - huge - patch14 - 336	分类	imagenet - 1k	88.2	未验证
aimv2 - huge - patch14 - 336	分类	inaturalist - 18	81.0	未验证
aimv2 - huge - patch14 - 336	分类	cifar10	99.3	未验证
aimv2 - huge - patch14 - 336	分类	cifar100	93.6	未验证
aimv2 - huge - patch14 - 336	分类	food101	96.6	未验证
aimv2 - huge - patch14 - 336	分类	dtd	88.8	未验证
aimv2 - huge - patch14 - 336	分类	oxford - pets	96.8	未验证
aimv2 - huge - patch14 - 336	分类	stanford - cars	96.4	未验证
aimv2 - huge - patch14 - 336	分类	camelyon17	93.3	未验证
aimv2 - huge - patch14 - 336	分类	patch - camelyon	89.4	未验证
aimv2 - huge - patch14 - 336	分类	rxrx1	7.2	未验证
aimv2 - huge - patch14 - 336	分类	eurosat	98.7	未验证
aimv2 - huge - patch14 - 336	分类	fmow	63.9	未验证
aimv2 - huge - patch14 - 336	分类	domainnet - infographic	73.4	未验证

📄 许可证

本项目使用apple - amlr许可证。

📖 引用

如果您觉得我们的工作有用，请考虑按以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}