aimv2-large-patch14-224-distilled开源视觉模型

首页

Aimv2 Large Patch14 224 Distilled

由 apple 开发

AIMv2是通过多模态自回归目标预训练的视觉模型系列，在多模态理解基准测试中表现优异。

图像分类 #多模态自回归预训练 #开放词汇目标检测 #高精度图像识别

下载量 236

发布时间 : 11/4/2024

模型简介

AIMv2是一种高效的视觉模型，采用多模态自回归目标预训练，适用于图像特征提取等任务，在多项基准测试中超越同类模型。

模型特点

多模态预训练

采用自回归目标进行多模态预训练，提升模型理解能力

高性能表现

在多项基准测试中超越CLIP、SigLIP和DINOv2等模型

高效扩展

预训练方法简单直接，能高效扩展到更大规模

高准确率

AIMv2-3B在ImageNet上达到89.5%的准确率

模型能力

图像特征提取

多模态理解

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

图像分类

用于高精度图像分类任务

ImageNet上达到89.5%准确率

目标检测

开放词汇目标检测

超越DINOv2模型

多模态应用

视觉语言理解

理解图像与文本的关联

在多模态理解基准中表现优异

🚀 视觉模型AIMv2

AIMv2是一系列视觉模型，通过多模态自回归目标进行预训练。该模型预训练简单直接，能够有效进行训练和扩展。其在多模态理解基准测试、开放词汇目标检测和指代表达理解等任务中表现出色，具有很强的识别性能。

🚀 快速开始

模型信息

属性	详情
库名称	transformers
许可证	apple-amlr
评估指标	准确率
任务类型	图像特征提取
标签	视觉、图像特征提取、mlx、pytorch

模型介绍

[AIMv2论文] [BibTeX]

我们推出了AIMv2系列视觉模型，这些模型通过多模态自回归目标进行预训练。AIMv2的预训练过程简单直接，能够有效进行训练和扩展。AIMv2的一些亮点包括：

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解方面，性能优于DINOv2。
展现出强大的识别性能，AIMv2 - 3B在使用冻结主干的情况下，在ImageNet上达到了*89.5%*的准确率。

💻 使用示例

基础用法 - PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224-distilled",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224-distilled",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

基础用法 - JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224-distilled",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224-distilled",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 许可证

本项目使用的许可证为apple - amlr。

📚 引用

如果您觉得我们的工作有用，请考虑按照以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}