aimv2-huge-patch14-448開源視覺模型 - 多模態預訓練，基準測試表現佳

首頁

Aimv2 Huge Patch14 448

由apple開發

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多個基準測試中表現優異。

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙理解

下載量 1,672

發布時間 : 10/29/2024

模型概述

AIMv2是一種高效的視覺模型，採用多模態自迴歸目標進行預訓練，在圖像分類、特徵提取等任務中表現出色。

模型特點

多模態自迴歸預訓練

採用創新的多模態自迴歸目標進行預訓練，提高模型性能

卓越的基準測試表現

在多個視覺基準測試中超越CLIP、SigLIP和DINOv2等模型

強大的識別能力

在ImageNet上達到89.5%的準確率，展示出色的識別性能

模型能力

圖像特徵提取

圖像分類

多模態理解

開放詞彙目標檢測

指代表達理解

使用案例

計算機視覺

圖像分類

對圖像進行分類識別

在ImageNet-1k上準確率達88.6%

自然圖像識別

識別自然場景中的物體

在iNaturalist-18上準確率達82.8%

細粒度分類

進行細粒度物體分類

在Stanford Cars上準確率達96.5%

醫療影像

病理圖像分析

分析醫療病理圖像

在Camelyon17上準確率達93.4%

🚀 圖像特徵提取模型`transformers`

本項目引入了使用多模態自迴歸目標進行預訓練的AIMv2系列視覺模型。AIMv2預訓練簡單直接，易於訓練和有效擴展，在多個多模態理解基準測試中表現出色。

🚀 快速開始

本模型可用於圖像特徵提取，以下是使用示例。

💻 使用示例

基礎用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

✨ 主要特性

在大多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙目標檢測和指代表達理解任務中，性能優於DINOv2。
具有強大的識別性能，AIMv2 - 3B使用凍結主幹在ImageNet上達到了*89.5%的準確率。

📚 詳細文檔

模型信息

屬性	詳情
庫名稱	transformers
許可證	apple - amlr
評估指標	準確率
任務類型	圖像特徵提取
標籤	視覺、圖像特徵提取、mlx、pytorch

模型性能

模型aimv2 - huge - patch14 - 448在多個數據集上的分類準確率如下：

數據集名稱	數據集類型	準確率	是否驗證
imagenet - 1k	imagenet - 1k	88.6	否
inaturalist - 18	inaturalist - 18	82.8	否
cifar10	cifar10	99.4	否
cifar100	cifar100	93.6	否
food101	food101	97.0	否
dtd	dtd	88.9	否
oxford - pets	oxford - pets	96.8	否
stanford - cars	stanford - cars	96.5	否
camelyon17	camelyon17	93.4	否
patch - camelyon	patch - camelyon	89.6	否
rxrx1	rxrx1	7.8	否
eurosat	eurosat	98.7	否
fmow	fmow	64.8	否
domainnet - infographic	domainnet - infographic	74.5	否

引用信息

如果您覺得我們的工作有用，請考慮以下列方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}