🚀 transformers
transformers
库引入了基于多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2预训练简单直接,易于训练和有效扩展。该模型在多个多模态理解基准测试中表现出色,具有强大的识别性能。
🚀 快速开始
安装
文档中未提及安装步骤,若要使用transformers
库,可通过以下命令安装:
pip install transformers
使用示例
基础用法
以下是使用PyTorch
调用模型的示例代码:
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
高级用法
以下是使用JAX
调用模型的示例代码:
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
✨ 主要特性
- 在大多数多模态理解基准测试中,性能优于OAI CLIP和SigLIP。
- 在开放词汇目标检测和指代表达理解任务中,性能优于DINOv2。
- AIMv2 - 3B模型在使用冻结主干的情况下,在ImageNet上的识别准确率达到89.5%。
📚 详细文档
模型信息
属性 |
详情 |
库名称 |
transformers |
许可证 |
apple - amlr |
评估指标 |
accuracy |
任务类型 |
image - feature - extraction |
标签 |
vision、image - feature - extraction、mlx、pytorch |
模型性能
模型aimv2 - 3B - patch14 - 336
在多个数据集上的分类准确率如下:
数据集名称 |
数据集类型 |
准确率 |
是否验证 |
imagenet - 1k |
imagenet - 1k |
89.2 |
false |
inaturalist - 18 |
inaturalist - 18 |
84.4 |
false |
cifar10 |
cifar10 |
99.5 |
false |
cifar100 |
cifar100 |
94.4 |
false |
food101 |
food101 |
97.2 |
false |
dtd |
dtd |
89.3 |
false |
oxford - pets |
oxford - pets |
97.2 |
false |
stanford - cars |
stanford - cars |
96.6 |
false |
camelyon17 |
camelyon17 |
93.2 |
false |
patch - camelyon |
patch - camelyon |
89.3 |
false |
rxrx1 |
rxrx1 |
8.8 |
false |
eurosat |
eurosat |
99.0 |
false |
fmow |
fmow |
65.7 |
false |
domainnet - infographic |
domainnet - infographic |
74.0 |
false |
引用信息
[AIMv2 Paper
] [BibTeX
]
如果您觉得我们的工作有用,请考虑引用以下内容:
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}
📄 许可证
本项目使用apple - amlr
许可证。