🚀 图像特征提取库transformers
transformers是一个用于图像特征提取的库,它引入了基于多模态自回归目标预训练的AIMv2系列视觉模型。该模型预训练简单直接,能有效进行训练和扩展,在多个多模态理解基准测试中表现出色。
🚀 快速开始
简介
[AIMv2论文
] [BibTeX
]
我们引入了通过多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2的预训练过程简单直接,并且能够有效地进行训练和扩展。AIMv2的一些亮点包括:
- 在大多数多模态理解基准测试中优于OAI CLIP和SigLIP。
- 在开放词汇对象检测和指代表达理解方面优于DINOv2。
- 展现出强大的识别性能,AIMv2 - 3B在使用冻结主干的情况下在ImageNet上达到了*89.5%的准确率。

📦 安装指南
文档未提供安装步骤,跳过此章节。
💻 使用示例
基础用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-huge-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-huge-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 详细文档
模型指标
属性 |
详情 |
库名称 |
transformers |
许可证 |
apple - amlr |
评估指标 |
准确率 |
任务类型 |
图像特征提取 |
标签 |
视觉、图像特征提取、mlx、pytorch |
模型结果
模型名称 |
任务类型 |
数据集 |
准确率 |
验证状态 |
aimv2 - huge - patch14 - 336 |
分类 |
imagenet - 1k |
88.2 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
inaturalist - 18 |
81.0 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
cifar10 |
99.3 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
cifar100 |
93.6 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
food101 |
96.6 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
dtd |
88.8 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
oxford - pets |
96.8 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
stanford - cars |
96.4 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
camelyon17 |
93.3 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
patch - camelyon |
89.4 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
rxrx1 |
7.2 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
eurosat |
98.7 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
fmow |
63.9 |
未验证 |
aimv2 - huge - patch14 - 336 |
分类 |
domainnet - infographic |
73.4 |
未验证 |
📄 许可证
本项目使用apple - amlr许可证。
📖 引用
如果您觉得我们的工作有用,请考虑按以下方式引用:
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}