aimv2-large-patch14-224-lit开源视觉模型 - 多模态理解表现超优实用之选

首页

Aimv2 Large Patch14 224 Lit

由 apple 开发

AIMv2是一个采用多模态自回归目标预训练的视觉模型系列，在多项多模态理解基准测试中表现优异。

图像生成文本 #多模态自回归 #零样本分类 #开放词汇检测

下载量 222

发布时间 : 11/20/2024

模型简介

AIMv2通过多模态自回归目标进行预训练，在图像分类、目标检测等任务上展现出强大的性能。

模型特点

多模态自回归预训练

采用创新的自回归目标进行预训练，实现更好的多模态理解能力

卓越的基准测试表现

在多数多模态理解基准测试中超越OpenAI CLIP和SigLIP模型

强大的识别性能

3B版本在使用冻结主干网络时，在ImageNet上达到89.5%准确率

广泛的应用能力

在开放词汇目标检测和指代表达理解任务上优于DINOv2

模型能力

零样本图像分类

多模态理解

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

图像分类

对图像内容进行分类识别

ImageNet上89.5%准确率

目标检测

检测图像中的特定目标

优于DINOv2模型

多模态应用

图文匹配

理解图像与文本描述之间的关系

超越CLIP和SigLIP模型

🚀 Transformers - 零样本图像分类模型

本项目引入了基于多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2预训练简单直接，易于训练和有效扩展。该模型在多模态理解基准测试、开放词汇目标检测和指代表达理解等方面表现出色。

🚀 快速开始

模型信息

属性	详情
库名称	transformers
许可证	apple-amlr
任务类型	零样本图像分类
标签	视觉、mlx、pytorch

模型亮点

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解方面，表现优于DINOv2。
AIMv2 - 3B模型在使用冻结主干的情况下，在ImageNet上达到了89.5%的识别准确率。

AIMv2 Overview

💻 使用示例

基础用法

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
text = ["Picture of a dog.", "Picture of a cat.", "Picture of a horse."]

processor = AutoProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224-lit",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224-lit",
    trust_remote_code=True,
)

inputs = processor(
    images=image,
    text=text,
    add_special_tokens=True,
    truncation=True,
    padding=True,
    return_tensors="pt",
)
outputs = model(**inputs)
probs = outputs.logits_per_image.softmax(dim=-1)

高级用法

JAX版本正在建设中。

📄 许可证

本项目使用的许可证为apple-amlr。

📚 详细文档

引用信息

如果您觉得我们的工作有用，请考虑引用我们的论文：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}

论文链接：[AIMv2 Paper]